揭本土AI開發難點 陳縕儂:不在地化恐影響母語
攜手團隊開發本土系統「Taiwan Llama」模型的陳縕儂分享,開發在地模型的原因,是當初發現AI語言模型有半數都是英文,簡體中文比例又較繁體中文高出10倍,因此團隊決定要訓練更客製化、專屬台灣的語言模型;然而,團隊開發之初就碰上難題——台灣缺乏蒐集完整的資料集,擁有資料的著作權人又多數較為保守,「比如說書商,你要書商開放資料給你模型訓練,他就不能接受。」
「如果希望台灣的AI持續有環境去發展,比照日本這樣的法規,其實我覺得是比較好的。」陳縕儂認為,若台灣著作權人都固步保守,訓練本土AI模型就有困難,因為好用的AI模型一定要先讀過很多資料;舉例來說,若教科書商不願開放資料,台灣又如何能期待有品質優良的AI家教?「只讀一點書,就是跟沒讀差不多,一定要全部都讀在同一個腦子裡,才會具有這種比較強的效力。」
談及台灣是否有必要開發本土AI模型?陳縕儂解釋,台灣很小,許多AI巨頭會「懶得」幫小國寡民的台灣開發在地語言模型,唯有自己做才有主控權,「我們可能可以期待他佛心來的會去做這件事,但我們不能也無法控制。」且台灣不僅要具有開發能力,國人也應運用在地模型,若長期運用英文或簡中模型,習慣後久而久之恐影響母語,對多元文化兼容並蓄的台灣來說絕非好事。
然而,作為小國的台灣,能否承擔起開發本土AI模型的成本?陳縕儂說明,從頭訓練模型的成本當然非常高,但台灣目前以繁中為主的基礎AI模型,其實至少就有3個以上,這些基礎模型如同大學修過通識課程的學生,只要再施加專業資料集,就會成為該領域的AI模型;換言之,企業可以先共同訓練專業的模型,而後再各自回公司訓練、微調,「這其實是可行的,成本也不會那麼高。」
曝AI業界人才斷層 陳縕儂:先培育更多軟體產業
「AI這個領域可以應用在各個產業,所以其實跨領域結合非常重要。」談起AI人才,陳縕儂表示,無論是法律、金融界或各行各業,都能運用AI人機協作,但要運用在專業領域時,必定就需要有專業人士一同開發;而現行開發方式,主要分為企業自行開設AI部門研發,或由專業人士和軟體公司合作開發,「會軟體的人去學專業領域,還是專業領域去學AI技術,這2種模式都是可行。」
對於我國AI人才培育,陳縕儂不諱言,台灣的人才整體一定比歐美少,儘管大專院校具備AI能力的人才數量其實不低,但台灣的軟體公司數不多,願意開出的薪資條件也較國外低,造成許多人才都出走不願留下,「求學階段之後就斷了AI training(訓練)或是經驗,又怎麼可以期待有更多人才?」想要留住軟體人才,首先要有更多公司,讓學生覺得有出路後,才會有更多人願意投入發展。
「現在你要講出台灣自己本土的軟體公司,根本就屈指可數。」儘管將AI產業打造成下一座護國神山呼聲頻現,但陳縕儂感嘆,半導體業是政府當初願大力投資整個產業,但當國際將台灣看作硬體為主的國家後,來台投資軟體業的機會就不多,進而使得軟體業缺乏競爭力、難跟海外搶人才,「先培育更多軟體產業,讓他們有機會成長、有潛力,未來才有下一個軟體業的護國神山出現。」
至於AI時代下的教育,程式語言是否要從小學起?陳縕儂則說,與AI互動已可用自然語言,因此重點應放在思維訓練;台灣的教育,讓學生從小就不會質疑老師,但未來導入AI家教後,若對不可能百分之百正確的AI仍深信不疑,恐就此學歪,「在台灣最重要的其實是學生的思路,要讓他能夠知道,要對事情都保持懷疑態度、要確認資訊的正確性,不要老師說了什麼,就一昧的相信。」
更多風傳媒獨家內幕:
‧ 【新新聞】金控股利活跳跳 2大亮點搶先掌握、今年獲利動能「這類型」最強