前言:當語言成為智慧的枷鎖
在日常生活中,語言是交流思想和分享知識的核心工具。它不僅是我們表達感情和解釋複雜觀念的媒介,更是一種將抽象想法具體化的重要方法。然而,當我們試圖理解更深層次的思維過程時,語言有時反而會顯得笨拙且低效率。
對人工智慧(AI)來說,這個限制更為明顯。大多數現有的AI模型依賴語言作為推理的核心框架。例如,傳統的「思考鏈」(Chain of Thought, CoT)方法要求模型模擬人類的線性思考,逐步用語言表達推理過程(Wei 等,2022 )。然而,這種方法存在明顯的缺陷,即模型生成的大部分語言內容是為了保持表面流暢性,而非真正有助於解決問題的邏輯推理。這意味著語言在某些場景下成為一種負擔而非助力。這種現象並非只存在於AI。科學家們透過神經影像學研究發現,人類在進行高階邏輯思考時,大腦中跟語言相關區域其實是相對不活躍的(Al等,2023)。
舉例來說,在進行數學推論或策略規劃,大腦主要依賴於負責空間和抽象推理的區域,而不是語言區域(Amalric與Dehaene,2019)。這些研究強調一個關鍵,即語言是溝通的工具,卻不總是思考的最佳媒介。正因為如此,AI研究者們開始思考:如果語言並非人類推理的必要條件,那麼為什麼要將AI的推理能力限制於語言框架之內?這種反思終於催生全新的模型設計理念—Coconut(連續思考鏈)。
舊王已死:CoT模型的致命傷
在人工智慧推理的研究領域,「思考鏈」(Chain of Thought, CoT)是一個重要突破點。它模擬人類的思維過程,讓AI能夠逐步生成語言,詳細描述並進行邏輯推理步驟。這種方法在很多問題上皆表現出色,特別是在解決需要分步處理的問題時。然而,當推理任務的複雜性提高,CoT的局限性也開始成為AI發展的障礙。
CoT的核心問題在於它過於依賴語言作為推理載體。在CoT框架下,模型需要逐步生成語言來表達逐步推理過程,這種做法對人類是直觀的,對於模型本身卻是一種負擔。
語言是人類設計用來溝通的工具,主要目的是幫助人與人之間交換訊息,而不是為邏輯推理或複雜計算而設計(Fedorenko 等,2024 )。舉例來說,一個數學問題答案可能只需要關鍵數字和運算符號,但用語言表達時,卻需要額外添加大量的描述詞彙以雕塑完整句子。這種過度依賴語言的現象在CoT中被放大,使得模型必須耗費大量的計算資源來處理非核心的語言元素。
CoT的另一個限制在於它的線性推理模式。由於每一步語言生成都需要依賴前一步輸出,因此模型在早期階段作出的錯誤決策可能會對後續推理產生重大影響。例如,如果模型在一個問題的早期階段選擇了錯誤方向,那麼後續的所有推理步驟都可能因為這個錯誤的開展,最終導致推理失敗。這種線性的「前向依賴」讓CoT在解決需要頻繁回溯或探索多條可能路徑的問題時顯得特別脆弱。