結論先講
隨著AI模型的能力越來越強大,能夠聽懂並執行的人類指令越來越多,當模型回應的好壞是由一小群人類標註者來決定的時候,可能會產生新型態的科技獨裁。然而,透過公共化授權條款,允許公民參與標註流程,避免標註資料的解釋權完全掌握在私有企業手中,可望減少企業因技術進步而產生的科技擴權效應。
最近有人問我:「那個ChatGPT、GPT4那麼厲害,聽說是因為用了RLHF技術,那是不是代表已經不需要人類標註,AI自己就可以學了呢?」我回答道:「不是,還是需要人類標註,只是這個標註跟我們傳統的資料標註不太一樣。」那麼到底是哪裡不同呢?如果還是需要人類標註,這個訓練出來的AI會不會很容易受人類標註者偏見或暗示的影響?
由於每個人都有自己的立場與偏好,由一小群標註人員所標註出來的內容,真的能代表不同的使用者群體嗎?特別是這一小群人還是專為某家公司服務。有沒有可能,這一小群被選中的標註人員,在給AI訓練的標註資料中,放入了偏袒自己的標註訊息,以至於AI生成的內容更偏袒標註員或其所處公司的利益相關人士?而這群人將成為AI時代的權貴階級,透過密語或暗示,可以命令AI做一般人的命令無法做到的事情,例如操縱股價之類的?
另一方面,為了不讓資料標註過程被一小群人把持,是否有可能開放像OpenAI這樣的私有企業的資料標註過程給一般民眾參與,讓標註的制定過程更加透明、民主與公共化?
什麼是RLHF?
為了瞭解 ChatGPT 是如何把標註過程私有化,我們要先解釋一下RLHF的運作方式。RLHF 的全名是 Reinforcement Learning from Human Feedback [4],中文直譯是「從人類反饋的增強式學習」。這名稱聽起來有點繞口,什麼是從人類反饋,什麼又是增強式學習?這個新方法跟傳統的AI用標註資料訓練又有甚麼不同?
下圖是在 ChatGPT 官網上可以找到的 RLHF 訓練流程圖,我們可以看到大致分成三步驟:
1.蒐集示範資料,透過監督式學習對 GPT3 進行微調。
2.蒐集對比資料,訓練獎勵模型。
3.使用增強式學習,使模型的輸出內容在獎勵模型的引導下,盡可能得到最高分。
看到這裡,你可能已經開始頭大了,一下是監督式訓練,一下是獎勵模型,一下又是增強式訓練……接下來,我會用兩個與日常生活比較貼近的比喻,來解釋監督式學習與增強式學習的概念。
監督式學習
監督式學習很像補習班教學生,反正就給一大堆練習題,叫學生自己做,做完自己對答案,自己訂正,下次再遇到同樣題目要答對。不過,如果只有這樣就太簡單了,學生可以把題目背起來但還是什麼都不會。因此考試不會出跟練習題一模一樣,會稍有不同,如果這樣學生還能答對,就代表他學會了。學生若能在考試中答對的越多,就表示他真的從練習題中學到了東西。