誰該擁有資料解釋權?從ChatGPT訓練與AI社會的未來,談標註流程私有化危機

2023-04-14 10:20

? 人氣

增強式學習

增強式學習比較像教鸚鵡說人話。怎麼樣教鸚鵡說人話呢?一開始主人只是不斷反覆給牠聽一段人類對話,牠一邊聽,一邊模仿牠聽到的發音。慢慢的,鸚鵡好像會說人話了,會莫名其妙蹦出一句「今天天氣26度」,可能主人給牠聽的是氣象報告的對話。

透過<Google新聞> 追蹤風傳媒

後來主人決心訓練牠成為氣象主播。於是主人就問牠:「今天天氣如何?」第一次鸚鵡隨便回:「你好嗎?」主人就不理牠,再問一次:「今天天氣如何?」就這樣問了100次,終於有一次鸚鵡回:「今天天氣26度!」主人就獎勵牠,給牠一頓蟲蟲大餐。

後來慢慢地,鸚鵡回應「今天天氣26度!」的機率變高了,從100次回一次,到50次回一次,到10次回一次,到每次必回…。從此以後當主人說:「今天天氣如何?」只要鸚鵡回答:「今天天氣26度!」,主人就給牠一條蟲蟲吃,鸚鵡就很高興。

如此,每當鸚鵡又蹦出了一句甚麼話,主人就訓練牠聽上一句話,然後接下句話。最後看起來,鸚鵡好像真的聽得懂人話了!主人問甚麼,牠就接下句。但是鸚鵡心裡想的其實只有蟲蟲大餐。

監督式學習與增強式學習的差異

在補習班的例子中,給學生練習的題目與答案,都是老師給的。套用到監督式AI的訓練過程上,題目就是指原始資料,而答案就是人類對原始資料所做的標註。

學生通常不會自己出題目自己做,因為學生本來就什麼都不知道,既然毫無相關知識,怎麼可能自己出題給自己做呢?所以在監督式學習中的原始資料,必然不是來自於學生自己,而是從老師或其他具有相關知識的人蒐集而來。而題目的答案,當然也是由老師或具有相關知識的人所標註上去的。

然而,在訓練鸚鵡說人話的例子中,主人並不是給鸚鵡一大堆發音練習題叫鸚鵡自己做,因為很顯然,鸚鵡看不懂題目。但是鸚鵡的模仿能力很強,能夠覆誦聽到的氣象報告內容。

主人是等到牠能覆誦出一段比較完整的句子後,再訓練牠在聽到主人指令後覆誦該句子。透過以蟲蟲大餐為獎勵的方式,讓鸚鵡記住,只要當主人說:「今天天氣如何?」回答:「今天天氣26度!」就有獎勵!

套用到增強式學習訓練AI的過程上,一開始給鸚鵡聽的氣象報告內容,相當於未標註的原始資料;而鸚鵡覆誦的結果,相當於模型模仿生成的產出。主人的指令就像是輸入到 ChatGPT 的 prompt 提示詞,而主人對牠產生的回應進行評分,就是獎勵模型(Reward Model)。

為了讓這個獎勵模型能夠對齊(Aligment)人類觀眾的喜好,我們需要找人來給生成的產出做評分。這樣的過程,人類標註的對象是模型生成的產出,而不是未標註的原始資料。

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章