急於開發更強大AI的公司突然面臨一個新問題:對於它們的計劃來說,網際網路可能太小了。
OpenAI、Google和其他公司開發的功能越來越強大的系統需要更多的資訊來學習。而在一些數據所有者過濾AI公司對自身數據訪問的情況下,這種需求導致網際網路上可用的優質公共數據池變得緊張。
本文為風傳媒與華爾街日報正式合作授權轉載。加入VVIP會員請點此訂閱:風傳媒・華爾街日報VVIP,獨享全球最低優惠價,暢讀中英日文全版本之華爾街日報,洞悉國際政經最前沿。
一些企業高管和研究人員表示,該行業對高品質文本數據的需求可能會在兩年內超過供應量,從而有可能減緩AI的發展。
AI公司正在尋找尚未開發的資訊源,並重新思考如何訓練這些系統。熟悉內情的人士說,ChatGPT的出品商OpenAI已經討論過將公開的YouTube影片裡所說的內容轉換成文本,並以此為基礎訓練該公司的下一個模型GPT-5。
一些公司還在嘗試使用AI生成的數據(也稱合成數據)作為訓練材料,許多研究人員表示,這種方法實際上可能會造成嚴重的故障。
這些做法通常都是秘密進行的,因為企業高管認為解決方案也可以是一種競爭優勢。
AI研究員Ari Morcos說,數據短缺「是一個前沿性的研究問題」;他曾在Meta Platforms和GoogleDeepMind部門工作,去年創辦了DatologyAI。他的公司打造改進數據選擇的工具,可能幫助企業以更低的成本訓練AI模型;DatologyAI的投資者包括一些AI先驅企業。「目前還沒有成熟的方法可以做到這一點。」
數據是供不應求的幾種重要AI資源之一。在ChatGPT、Google的Gemini和其他AI機器人背後運行的大型語言模型所需的晶片也很稀缺。此外,行業領導者擔心的還有數據中心和這些中心所需電力的不足。
AI語言模型是利用從網際網路上獲取的文本建立的,這些文本包括科學研究、新聞報導和維基百科(Wikipedia)條目。這些材料被分解成詞元(token),即模型用來學習如何構建類似人類表達的單詞和部分單詞。
一般來說,AI模型訓練的數據越多,能力就越強。OpenAI對這種方法押下了大注,由此成為了世界上最著名的AI公司。
OpenAI沒有透露該公司目前最先進的語言模型GPT-4的詳細訓練材料;GPT-4已成為高級生成性AI系統的行業標準。
但據Pablo Villalobos估計,GPT-4的訓練素材已經多達12兆個詞元;Villalobos為研究院Epoch研究AI。Villalobos和其他研究人員估計,根據一個名為Chinchilla擴展定律(Chinchilla Scaling Law)的電腦科學原理,如果研究人員繼續遵循當前的成長軌跡,像GPT-5這樣的AI系統將需要60兆到100兆個詞元的數據。