Appier AI 科研實力大放異彩，三篇論文榮登 NeurIPS 與 EMNLP 國際 AI 權威會議-風傳媒

Appier AI 科研實力大放異彩，三篇論文榮登 NeurIPS 與 EMNLP 國際 AI 權威會議

Appier 緊跟市場趨勢，持續投資 AI 創新技術與 LLM 前瞻研究。隨著 AI 技術的不斷迭帶和演進，Appier 也將攜手產學界頂尖專家學者與學研菁英，深挖能顛覆遊戲規則的劃時代科技，推出切合實務應用的創新應用，引領數位廣告與行銷領域的轉型變革！

透過<Google新聞> 追蹤風傳媒

Appier 正積極招聘研究科學家、工程師及 MarTech 專業人才，致力於加速產品創新研發，以滿足客戶日益增長的業務需求。誠摯邀請優秀人才加入，一同推動 AI 的未來發展！

入選論文介紹

第一篇論文《StreamBench：邁向語言代理持續改進的基準測試》成功入選 AI 界的奧林匹克殿堂 NeurIPS 神經訊息處理系統會議數據集 & 基準組別。這篇論文介紹了業界首創的基準測試工具 StreamBench，專為評估大型語言模型（LLM）代理在「輸入 vs. 反饋」序列中的持續改進能力而設計。大多數基準測試專注於 LLM 的先天能力，StreamBench 則是透過模擬線上學習環境，使 LLM 能夠即時接收反饋流進行迭代以優化其效能。該研究不僅提出了簡單有效的基準測試方法，還針對成功實現串流策略的關鍵要素進行了全面的分析。這項研究為在動態、即時串流場景中打造更具適應性的 AI 系統奠定了堅實的基礎。

第二篇論文《我需要幫助！評估 LLM 尋求使用者支援的能力：以文本生成 SQL 為案例研究》則是被知名的 EMNLP 自然語言處理實證方法會議主要組別所接受。該研究檢視了大型語言模型（LLMs）在生成自然語言文本（Text）到結構式查詢語言（SQL）時，主動尋求用戶提供更多資訊以提升其效能的能力。Appier AI 研究團隊希望瞭解 LLM 效能的提升，與其向使用者提問，對使用者造成負擔間的量化權衡指標，進一步探討 LLM 是否能夠判斷何時需要請求使用者幫助，並透過不同級別的可用性資訊將對結果產生什麼差異化表現。實驗結果顯示，在缺乏外部反饋的情況下，許多 LLM 難以識別其是否需要額外支持，突顯了回饋資訊的重要性，為將來如何優化「資訊支持 vs.尋求反饋」策略相關的研究提供了重要的發現與洞察。

第三篇論文《自由發揮？格式限制對語言模型推理能力的影響》也成功獲得 EMNLP 自然語言處理實證方法會議產業組別的發表資格！該研究比較了以結構化生成──即以標準化格式（如 JSON 或 XML）限制內容生成的過程，相較於自由生成回應，是否會對 LLM 的表現產生影響，特別是在推理和領域知識理解能力方面。透過廣泛的評估，研究揭示了令人意外的發現：嚴格的格式限制顯著削弱了 LLM 的推理能力，突顯了在結構化內容生成與關鍵訊息提取之間取捨的重要性。

1 2 全文閱讀

Appier AI 科研實力大放異彩，三篇論文榮登 NeurIPS 與 EMNLP 國際 AI 權威會議

入選論文介紹

如何從ChatGPT問到滿意的答案？用「循序思考」提問法，提升AI回答的準確度

用AI兵推會怎樣？美智庫專家警告：LLM仍有待訓練，否則恐引爆核戰

軟體新創獨角獸Appier第二季營利年增4.4倍　看好歐美客戶持續增長

今年全球逾70場大選，假消息滿天飛！最新研究：熱門AI聊天機器人回答出錯率逾5成

「北進」成台灣新熱潮！日本市場到底夯在哪？業者細數2大「藍海優勢」

名人真心話2》台灣如何布局元宇宙？簡立峰指路：靠2000萬人難以支撐一個平台

入選論文介紹

如何從ChatGPT問到滿意的答案？用「循序思考」提問法，提升AI回答的準確度

用AI兵推會怎樣？美智庫專家警告：LLM仍有待訓練，否則恐引爆核戰

軟體新創獨角獸Appier第二季營利年增4.4倍 看好歐美客戶持續增長

今年全球逾70場大選，假消息滿天飛！最新研究：熱門AI聊天機器人回答出錯率逾5成

「北進」成台灣新熱潮！日本市場到底夯在哪？業者細數2大「藍海優勢」

名人真心話2》台灣如何布局元宇宙？簡立峰指路：靠2000萬人難以支撐一個平台

軟體新創獨角獸Appier第二季營利年增4.4倍　看好歐美客戶持續增長