在這個AI技術日益進步與普及的時代,許多人都有跟大型語言模型(LLM)對話的經驗。如果你也是其中一員,或許以下情境對你並不陌生:ChatGPT回答問題時自信、連貫,細看答案卻悖離事實、完全錯誤。這種生成式AI「一本正經胡說八道」的詭異現象,人工智慧業界將其稱為(AI)「幻覺」(hallucination)或者(AI)「妄想」(delusion),《經濟學人》則給出四種建議的解方。
《經濟學人》指出,生成式AI的「幻覺」問題使得人們很難在現實生活中依賴人工智慧系統。然而要解決此一問題並非易事,因為讓AI出現「幻覺」的根本因素、同時也是讓它們威力無窮的原因——大型語言模型是「生成式」(generative)人工智慧的一種形式,從字面上來看,這意味著它們透過編造東西來解決新問題。
各家生成式AI的研發者也清楚「幻覺」目前難以避免,因此官網經常可以看到警示標語,OpenAI也在使用說明中警告ChatGPT「可能會犯錯」;美國人工智慧公司Anthropic表示其大型語言模型Claude「可能會顯示不正確或有害的資訊」;Google的Gemini警告用戶「仔細檢查其回應」。這些警語都指向大型語言模型的同一個問題:無論AI生成的文字看起來多麼流暢和自信,我們仍不能百分之百相信它。
除了造成使用者的不便,生成式AI胡說八道更會造成法律爭端。加拿大航空官網的聊天機器人2022年11月就因為對消費者提供不實資訊,導致對方得到票價折扣的錯誤資訊,多付了483美元。加拿大男子莫法特(Jake Moffatt)為此將加航一狀告上法院,加拿大航空雖試圖推卸責任,宣稱「公司不應對聊天機器人提供的資訊負責」,但法院認定加航未能確保聊天機器人提供資訊的準確性,要求航空公司將溢收票價附加利息退還給消費者。
生成式AI如何生成?
大型語言模型之所以產生「幻覺」,《經濟學人》指出與其運作方式有關。大型語言模型生成回答的過程是基於預先訓練的模型,透過大量的文本資料進行訓練,從而能夠理解自然語言(也就是人類語言)的結構、語法和語意。當生成式AI接收到一個問題時,就會使用訓練好的模型來預測最有可能的答覆。換言之,生成式AI是利用上下文的語意和問題的特定細節,透過不同字詞接續生成的概率來推算出最有可能的答案。大型語言模型要求不同字詞都要有機會出現,這使得AI模型能夠靈活地學習新模式、不會給予一成不變的回覆,但同時也會產生錯誤的陳述。《經濟學人》指出,根本問題就在於,語言模型出現什麼答案是機率問題,但真理顯然不是。