馬斯克日前語出驚人地表示,AI(人工智慧)模型的訓練去年就耗盡了「人類世界的所有知識」,科技公司不得不改用「合成」資料繼續訓練新系統。
馬斯克(Elon Musk)在CES期間接受全球數位行銷公司Stagwell的執行長Mark Penn專訪,坦言人工智慧已經「耗盡」了人類知識總和,要解決缺乏來源素材來訓練新模型的問題,「唯一的方法」就是轉用人工智慧所建立的合成資料。比方說讓AI寫一篇論文或提出論點,然後再自我評分,藉此來自我學習。
《衛報》指出,Meta目前已使用合成資料來訓練Llama AI模型,微軟也在Phi-4模型中使用了AI製作的內容,包括Google和OpenAI(ChatGPT母公司)也使用了合成資料來訓練AI。不過Musk也警告,「AI幻覺」(指不準確或無意義的輸出)對於合成資料而言是一種危險。他對Mark Penn表示,AI幻覺讓訓練AI的過程變得「充滿挑戰」,因為「你怎麼知道分別這些答案是幻覺還是真實」。
英國圖靈研究所 (Alan Turing Institute) 的人工智慧主任安德魯・鄧肯(Andrew Duncan)表示,馬斯克的說法與最近一篇論文不謀而合,這篇學術論文估計「公開可用的人工智慧模型資料」最快會在 2026年耗盡。鄧肯也警告,過度依賴合成資料可能會造成「模型崩潰」的風險,造成AI的輸出品質變差。
鄧肯說,當你餵給AI模型合成資料,你的回報品質也會開始遞減,包括產出偏差和缺乏創意。不過就算沒有蓄意餵給AI合成資料,由於網路上的公開資料有越來越多AI的作品,也可能導致這些資料被用來訓練AI模型。