安傑洛普洛斯和Chiang仍在努力完成他們的電腦科學博士學位。不過,進展很慢,因為營運這個排行榜佔用了他們大部分時間,而且他們沒有報酬。
「我的女朋友整天整夜都在聽我談論Chatbot Arena,」安傑洛普洛斯說。
憑感覺打分
研究人員表示,隨著時間的推移,學術基準已經變得不那麼有用了,因為基準測試中的問題已經被納入支撐AI應用的大型語言模型(LLM),這實際上相當於讓模型提前知道了答案。
Google和OpenAI聲稱,它們在四年前發布的一個名為大規模多任務語言理解測評(Measuring Massive Multitask Language Understanding)的常用基準測試中,得分均高於90%。該測試的創建者之一丹·亨德里克斯(Dan Hendrycks)最近開始為一個最難新基準測試徵集問題,他將其命名為「人類終極考試」(Humanity’s Last Exam)。
Abacus.AI的研究主管科林·懷特(Colin White)表示:「一個基準測試在首次發布時可能對大型語言模型來說非常具有挑戰性,但下一代大型語言模型出現後,它們就能達到近乎完美的表現。」Abacus.AI開發了名為LiveBench的基準測試,每月發布新問題。
雖然Chatbot Arena的正面交鋒形式不能像考試那樣取得好成績,但它並不總是衡量客觀標準,也不衡量聊天機器人是否堅持已核實的事實。這就是為什麼一些研究人員將這種方法稱為「基於感覺的評估」。
Chatbot Arena的負責人表示,他們對該網站的局限性一直保持透明。他們允許訪問者從排名中剔除基於風格的變量,比如回覆長度和格式。
「人類的偏好是一個關鍵信號,」安傑洛普洛斯說。「這些問題有主觀性。」
神秘的AI模型
安傑洛普洛斯和Chiang已經為該項目招募了十幾名其他貢獻者,他們希望該項目能夠發展成為類似於AI維基百科的東西。他們表示,不考慮將其作為一項營利性項目。
安傑洛普洛斯說: 「好的方面是,有多種可能性。」
隨著Chatbot Arena的發展,AI愛好者一直在仔細研究新進入者,希望能識別出尚未向公眾發布的技術。去年5月在Chatbot Arena上發布的一個名為im-also-a-good-gpt2-chatbot的神秘模型,結果就是GPT-4o。GPT-4o目前為ChatGPT提供支持。華爾街日報》川普啟動「休克療法」,美國多個政府部門運轉停滯更多文章
據Chatbot Arena稱,Meta、Google和伊隆·馬斯克(Elon Musk)的xAI也曾在該網站上測試過技術,然後才向更廣泛的公眾發布。