Appier AI 科研實力大放異彩,三篇論文榮登 NeurIPS 與 EMNLP 國際 AI 權威會議

2024-10-18 18:02

? 人氣

Appier 緊跟市場趨勢,持續投資 AI 創新技術與 LLM 前瞻研究。隨著 AI 技術的不斷迭帶和演進,Appier 也將攜手產學界頂尖專家學者與學研菁英,深挖能顛覆遊戲規則的劃時代科技,推出切合實務應用的創新應用,引領數位廣告與行銷領域的轉型變革!

透過<Google新聞> 追蹤風傳媒

Appier 正積極招聘研究科學家、工程師及 MarTech 專業人才,致力於加速產品創新研發,以滿足客戶日益增長的業務需求。誠摯邀請優秀人才加入,一同推動 AI 的未來發展!

入選論文介紹

第一篇論文《StreamBench:邁向語言代理持續改進的基準測試》成功入選 AI 界的奧林匹克殿堂 NeurIPS 神經訊息處理系統會議數據集 & 基準組別。這篇論文介紹了業界首創的基準測試工具 StreamBench,專為評估大型語言模型(LLM)代理在「輸入 vs. 反饋」序列中的持續改進能力而設計。大多數基準測試專注於 LLM 的先天能力,StreamBench 則是透過模擬線上學習環境,使 LLM 能夠即時接收反饋流進行迭代以優化其效能。該研究不僅提出了簡單有效的基準測試方法,還針對成功實現串流策略的關鍵要素進行了全面的分析。這項研究為在動態、即時串流場景中打造更具適應性的 AI 系統奠定了堅實的基礎。

第二篇論文《我需要幫助!評估 LLM 尋求使用者支援的能力:以文本生成 SQL 為案例研究》則是被知名的 EMNLP 自然語言處理實證方法會議主要組別所接受。該研究檢視了大型語言模型(LLMs)在生成自然語言文本(Text)到結構式查詢語言(SQL)時,主動尋求用戶提供更多資訊以提升其效能的能力。Appier AI 研究團隊希望瞭解 LLM 效能的提升,與其向使用者提問,對使用者造成負擔間的量化權衡指標,進一步探討 LLM 是否能夠判斷何時需要請求使用者幫助,並透過不同級別的可用性資訊將對結果產生什麼差異化表現。實驗結果顯示,在缺乏外部反饋的情況下,許多 LLM 難以識別其是否需要額外支持,突顯了回饋資訊的重要性,為將來如何優化「資訊支持 vs.尋求反饋」策略相關的研究提供了重要的發現與洞察。

第三篇論文《自由發揮?格式限制對語言模型推理能力的影響》也成功獲得 EMNLP 自然語言處理實證方法會議產業組別的發表資格!該研究比較了以結構化生成──即以標準化格式(如 JSON 或 XML)限制內容生成的過程,相較於自由生成回應,是否會對 LLM 的表現產生影響,特別是在推理和領域知識理解能力方面。透過廣泛的評估,研究揭示了令人意外的發現:嚴格的格式限制顯著削弱了 LLM 的推理能力,突顯了在結構化內容生成與關鍵訊息提取之間取捨的重要性。

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章