最近,OpenAI的新推理模型o1可說是遇上了不少勁敵。中國AI公司DeepSeek和Moonshot AI(月之暗面),都各自推出「可以媲美o1」的新模型,表示效能和o1不相上下;阿里巴巴則宣稱,自家的研究模型在數學方面比美國更強。
雖然這幾間公司還未發表相關論文,卻已經在美國造成不小的討論。「中國正在用更快的速度迎頭追趕。」曾任OpenAI研究員、現為人工智慧企業家的安德魯·卡爾(Andrew Carr)指出,DeepSeek的研究人員只花了幾個月就成功複製OpenAI的推理模型,讓他許多同事詫異不已。
更不用說,近兩年來美國幾次限制企業向中國出售晶片,日前又迎來第三波出口禁令,點名140家企業、擴大出口管制範圍至台灣、南韓、馬來西亞等地,為的就是要防堵中國在半導體產業的發展。在這樣不利的環境下,中國新創公司卻能以驚人的速度,推出一款款性能毫不遜色的AI模型,為業界帶來不小的震撼。
推理模型成新發展焦點
長期以來,業界一直以「擴展法則」(Scaling Laws)為發展主流,透過不斷擴大數據量和計算能力來擴展現有模型。但最近,許多大公司如OpenAI、Google都在這裡碰上了瓶頸,不少人紛紛對擴展法則提出質疑。
既然碰壁了,那就換一條路吧!於是有些公司轉而研究推理模型(Reasoning model),這是一種能自我進行事實查核的模型,得比傳統的模型花更多時間思考、查詢資料,但也能有效避免許多讓模型出錯的陷阱。以DeepSeek新推出的「R1」為例,它平均需要花費數十秒思考後才能作答。
DeepSeek表示,在AIME(美國數學邀請賽,美國數學奧林匹克的預選賽之一)測試中,他們的表現勝過OpenAI。根據《華爾街日報》實驗結果顯示,OpenAI的o1預覽版在解題速度上仍較DeepSeek、月之暗面和阿里巴巴的實驗模型還要快,例如在一個和雙人遊戲策略有關的文字謎題中,OpenAI程式在10秒內給出答案,DeepSeek則花了超過2分鐘。
不過,文字題對AI來說難度相當高,第一次就能正確解答,已經是個很不錯的開始。
《華爾街日報》原文:中國AI公司另闢蹊徑快速追趕美國同行
被美國「排擠」 中國會就此敗下陣來嗎?
中國公司的研發成果不禁讓人好奇,面對拜登幾次收緊出口管制、拿不到高品質晶片的情況下,究竟是怎麼辦到的?
背後金主包括阿里巴巴和騰訊的月之暗面的創辦人楊植麟表示,他們把主力放在「強化學習」(Reinforcement learning),一種模仿人類試錯過程的技術,在提升性能時對運算能力的需求通常較低。