台灣AI自建》台灣需要建立主權AI嗎?該怎麼做?

2024-08-09 07:10

? 人氣

台灣需要建立自己的主權AI嗎?如果需要,該怎麼做?(圖/OpenAI)

台灣需要建立自己的主權AI嗎?如果需要,該怎麼做?(圖/OpenAI)

台灣需要建立自己的主權AI嗎?輝達(nVIdia)創辦人黃仁勳登高一呼以後,國家加入競逐AI的發展情況成為全世界關注焦點。近兩年人工智慧技術大幅進步,以生成式AI為主軸,發展出各項顛覆性的產品,投資大型語言模型(LLM)及各項硬體也呈現前所未有的浪潮,全球產業掀起爭奪技術人才、算力的競賽;台商已展現優異的硬體設計、研發與製造能力,接下來的主權AI競賽,台灣該不該加入戰局?如何確立自身優勢地位? 

透過<Google新聞> 追蹤風傳媒

什麼是大型語言模型?AI用國外開源模型還不夠嗎? 

大型語言模型(LLM)是一種深度學習演算法。不同於過往指令型AI,只能用既定規則產生一種或多種答案,大型語言模型可識別不同規則,藉此生成多樣化的文本或其他內容。大型語言模型須使用巨量資料集訓練,藉由工程師微調,讓LLM吸收資料後,擴增知識能力,以符合用戶在特定情境下提出的不同需求。 

例如在7月下旬,Meta公開其新的LLM模型Llama 3.1 -405b,這個模型耗費3,100萬機器小時訓練,以多達4,050億個參數的資料量,使用16,000顆輝達H100的GPU訓練。Meta執行長祖克柏(Mark Zuckerberg)認為,Llama 3.1將使開源AI成為新的行業標準,最終將成為產業轉捩點,所有的開發人員都會優先使用開源的AI模型。 

臉書母公司Meta。(美聯社)
臉書母公司Meta。(美聯社)

這反映了祖克柏的野心,他想創造一個以Meta AI為基底的AI產業生態系,所有的AI應用都從Llama模型微調、延伸而成。在台灣,大部分號稱研發出自有AI的企業,都會使用如Llama系列的開源AI模型,再根據企業需求微調。但這麼做,可能會出問題。 

直接採用國外的開源AI,有什麼風險? 

首先,台灣的官方語言是繁體中文,在國際上屬於規模較小的語言,在Meta所使用的訓練資料量自然相對少,不免參雜許多簡體轉繁體的資料,並未經過在地化校正。我們使用的資料不只有語言是繁體中文,而是在文化、風俗、用語等方面要「接地氣」,才能符合台灣企業、教育等應用需求,因此使用歐美訓練完畢的AI模型,反而增加企業導入AI時的困難,提高其應用門檻。 

參與Taiwan LLM開發研究的台大資工系博士生林彥廷,分享在Taiwan LLM使用不同資料進行訓練時的結果:當使用開放性的線上繁體中文語料進行訓練時,模型表現出偏好中國大陸的政治傾向;之後完全使用經驗證的台灣資料進行訓練,這樣的政治傾向才消失。 

現狀是,全球各主要國家都正在積極研發屬於自己國家的人工智慧模型,以確保技術研發的自主性。輝達公司執行長黃仁勳更呼籲,各國都應投資發展自身的AI能力並稱之為「主權AI」,因為「數據資料就如同自然資源一樣寶貴,應將其轉化為AI實力。」 

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章