華爾街日報》訓練新世代AI需要海量資訊,網路上的「高品質數據」已嚴重供不應求

2024-04-03 11:27

? 人氣

Villalobos說,利用所有可用的高品質語言和圖像數據之後,仍可能至少存在10兆個-20兆個詞元的缺口。尚不清楚如何彌補這一缺口。

透過<Google新聞> 追蹤風傳媒

兩年前,Villalobos和他的同事寫道,高品質數據到2024年中期供不應求的可能性為50%,到2026年供不應求的可能性為90%。自那以來他們變得更樂觀了一點兒,他們計劃把預測所涉時間框架更新到2028年。

可在網上獲得的大部分數據對AI訓練來說並無用處,因為存在句子殘缺等缺陷,或者不能增進模型的知識。Villalobos估計,網際網路上的數據只有一小部分對此類訓練有用——也許僅相當於非營利組織Common Crawl收集的資訊的十分之一。該組織的網路數據集被AI開發者廣泛使用。

與此同時,社交媒體平台、新聞出版商和其他相關方出於對公平補償等問題的關切,已在對獲取其數據用於AI訓練設限。公眾也很少願意交出私人對話數據(如通過iMessage進行的聊天)來幫助訓練這些模型。

祖克柏(Mark Zuckerberg)最近宣揚了Meta Platforms在自家平台上獲取數據的能力,將其當成該公司發展AI業務的一大優勢。他說,Meta可以挖掘旗下各個網路(包括Facebook和Instagram)上數以千億計公開分享的圖片和影片,其總量大於多數常用的數據集。尚不清楚這些數據中有多大比例會被視為高品質數據。

數據挑選工具初創企業DatologyAI採用的一種策略被稱為課程學習,即按照特定順序把數據輸入語言模型,希望AI能在概念之間形成更好的關聯。在2022年的一篇論文中,DatologyAI的Morcos和合著者估計,模型藉助半數相關數據就能達到同樣的效果——只要數據是合適的——這有可能降低訓練和運行大型生成式AI系統所需的巨大成本。

迄今為止的其他一些研究暗示課程學習這種辦法效果不佳,但Morcos說他們正持續調整自己的方法。

「這是深度學習方面不足為外人道的秘密:這是在以直觀的方法試錯,」Morcos說。

包括OpenAI的合作夥伴微軟(Microsoft)在內,一些科技公司正構建體量僅為GPT-4的一小部分,但可以實現特定目標的較小語言模型。

OpenAI首席執行官阿特曼(Sam Altman)已表示該公司正在研究訓練未來模型的新方法。他在去年的一次會議上說:「我認為我們正處於一個時代的末期,這個時代由這些巨型模型組成;我們會用其他方式讓它們變得更好。」

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章