台灣AI自建》台灣需要建立主權AI嗎?該怎麼做?

2024-08-09 07:10

? 人氣

台灣人工智慧學校校務長蔡明順說明,大型語言模型(LLM)就是人類社會文化的一種映射(Mirror),必須與一個國家的文化、體制、品格、價值判斷對齊,否則會發生知識或是道德倫理的錯亂。他認為,運用本土材料建立與維護自身的LLM,確有其必要性。 

[啟動LINE推播] 每日重大新聞通知

台灣如何建立自己的人工智慧?我們有必要從零開始? 

雖然建立主權AI的好處顯而易見,但台灣要實現這項目標,仍有好幾道障礙須克服。 

首先,需要大量資源才能建造一套大型語言模型。論硬體,基礎建設方面就需要資料中心級的GPU,以支援AI的高速運算需求;論軟體,背後所需人力則是訓練模型的高端技術人才,至於所需數據量則是讓人工智慧「更聰明」的知識、材料。 

「全民懂CoWoS」的科技之島,算力夠用嗎? 

建構大型語言模型時,最重要的硬體設備就是具備高速運算能力的處理器和資料存放的伺服器。以Llama 3.1為例,它使用1.6萬片輝達H100 GPU進行訓練,使其性能可與OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet匹敵。 

論硬體,台灣是世界首屈一指的半導體企業重鎮,完整的產業鏈讓我們推動AI研發時應可取得所需的硬體。甚至據記者採訪所知,許多企業早已預先「囤貨」買好大量GPU,生怕以後買不到。因此林彥廷認為,台灣並不缺乏算力,而是「效益評估」。 

「我就覺得很奇怪,如果先花這麼多錢,有沒有考量到,之後可能蒐集不到足夠的資料來進行訓練?」林彥廷指出,當初中研院「TAIDE」自製AI計劃合計購置72張H100晶片,然而僅僅一個下午的時間,手上所有資料就被AI消化完畢。 

林彥廷說明,資料量規模是決定要訓練多少算力的基礎,有一套公式可精準估算,藉此計算訓練成本。然而,企業現階段往往只知道指名要輝達GPU,卻沒有足夠資料滿足算力,以為買了GPU就等於導入AI,普遍不了解成本效益之下,往往無法發揮最佳效果。他舉例,如果企業只有在內部完善知識管理、加快內部流程效率等需求,根本不必自建硬體設施,向外租賃一些設備就很足夠了。 

資料量不夠AI讀?

想發展一套強大的生成式AI模型,就必須提供高品質且多樣化的資料。所謂「多樣化」,指的是包括教科書、文獻、法律文件,甚至社交媒體上的對話紀錄。然而,台灣目前的法律架構仍追不上科技腳步,缺乏明確AI開發的資料使用指引,AI進展要符合法令規範自然困難重重。這使得開發團隊難以取得大型資料集,尤其是從出版社等來源取得資料,因為版權方在沒有明確法律保護下,自然不願意分享有價值的內容。 

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章