更重要的是,研究顯示人類大腦在處理邏輯問題時,其實並不依賴語言區域(Amalric與Dehaene, 2019)。這意味著模仿人類思考的最佳方法未必是依靠語言來逐步描述推理過程。相反地,人類在解決問題時更多依賴於抽象的思維模式,例如,空間推理或數據結構操作。而CoT卻將AI推理限制在語言框架內,而忽略非語言思維方式的優勢。
破繭而出:Coconut的神秘「第六感」
「潛在空間」是一種數據表示的隱藏層,AI在其中不需要生成語言,而是以數學結構和數據向量形式進行思維活動。與傳統模型需要逐字生成語言表達的方式不同,Coconut直接操作其隱藏層的最後一個狀態,並將其作為下一步推理的輸入,實現了一種連續的、非語言化的思考過程。這種機制不僅提高推理效率,也能讓模型同時考慮多種推理路徑,而實現真正的「並行推理」。
這種潛在空間的運作方式,使Coconut的推理模式更接近人類直覺的思維過程。例如,在面對一個複雜的數學問題時,傳統AI可能需要逐步生成每一個推導步驟,並將其轉化為語言輸出,這些步驟之間可能存有大量無用的多餘訊息。然而,Coconut可在其隱藏層中同時生成多個推理方向,並在過程中不斷優化選擇,最終直接給出答案,無需用語言描述每一個細節。這種模式讓Coconut在需要頻繁回溯或多層次規劃的問題上展現明顯優勢。以實驗結果為例,Coconut在多項測試中顯示出優於傳統模型的能力。在解決數學推理問題時,Coconut的正確率明顯高於語言驅動的CoT模型,其所需生成的語言內容也隨之大幅減少(Deng,1972)。
超越極限:當AI突破人類思維天花板
Coconut的最大突破在於其全新的推理模式,這種模式不僅模仿人類思維的某些特性,甚至在某些方面超越我們的直覺推理能力。人類的思維能夠同時考慮多個選項,快速排除錯誤,跳躍式地找到最佳解決方案。Coconut以其「潛在空間推理」能力實現這一點,但它的實現方式甚至能呈現更高效與更廣泛。
傳統的人工智慧推理方法通常採用線性模式,即逐步生成每一步推理結果,並將串聯結果形成最終答案。這種模式被稱為「思考鏈」(Chain of Thought, CoT)(Wei 等,2022 ;Khot 等,2022 ),雖然直觀,但存在著兩個主要問題:第一,它過於依賴每一步輸出準確性,如果早期階段的某個決策出現錯誤,則後續推理可能導致整體結果偏離目標。第二,這種線性模式要求模型將全部計算資源投入單一路徑,無法同時探索其他可能的選項。