編按:從ChatGPT等AI聊天機器人產生的熱門內容,到TikTok、Instagram和YouTube的內容,其實,都是由所謂的「資料處理員」的協助進行整理、標記和分類。不過作者指出,「資料標記工作訓練了AI系統,但AI系統最終將取代訓練它的人類」。
機器中的靈魂
試圖打造出超乎常人的智慧機器並不是什麼新鮮事。在十九至二十世紀之交,猶太人的民間傳說描述過十六世紀末有「魔像」(golem)出現,它原本是泥偶,由布拉格的拉比勒夫(Rabbi Loew)賦予生命,保護當地猶太人不受反猶人士的攻擊。
故事的結局很好預測,魔像抓狂,最後毀在創造者手裡。這個故事和兩樣事物遙相呼應:一是雪萊(Mary Shelley)的創作《科學怪人》(Frankenstein),這部近代的作品協助催生了科幻小說文類;另一是最近新聞熱潮的AI論述,人們似乎愈來愈擔心惡意AI帶來的危險。
今天,真實世界的AI沒那麼有自主性,反而更像一種輔助技術。大概從2009年開始,我們密集使用連網設備和網際網路產生的大量資料,加上不斷增強的晶片運算能力,促成技術突飛猛進。
值得一提的是,這導致了一個AI子類別的興起,那就是機器學習及衍生的深度學習(deep learning),兩者都在教電腦軟體從大量資料中找出統計的相關性,範圍涵蓋文字、影像、程式碼或數字。
找出模式的方法之一是讓AI模型看過數百萬個標記好的範例。這種方法需要人類費心標記所有的資料,這樣電腦才能夠進行分析。沒有這些負責標記的人,做為自動駕駛車和臉部辨識基礎的演算法就與目盲無異,它們沒辦法學習模式。
以這種方式打造的演算法,如今能在醫學、刑事司法、社會福利,以及抵押貸款申請等諸多領域,強化或替代人類的判斷。生成式AI是最新一代的AI軟體,可以產生文字、程式碼和影像。這讓它們能化身為創意助理,協助教師、財務顧問、律師、藝術家和程式設計師共同製作原創的作品。
為了打造AI,矽谷最有名的公司都在自家腹地爭取名額有限的資訊科學人才,支付數十萬美元給剛出爐的博士。不是學歷、證照!職場上擁有什麼才能脫穎而出?專家給答案:裝不出來也騙不了人更多文章
但要利用真實世界的資料來訓練和配置AI,同樣的企業卻找上薩碼這類公司,這類公司擁有的一大票員工具備基本的數位素養,薪資卻不高,且就業狀況不穩定。
薩碼不是全球唯一提供AI訓練服務的公司。Scale AI、Mighty AI(現歸優步所有)、澳鵬(Appen)、蜂巢微(Hive Micro)和艾美瑞特(iMerit)等新創公司,以及埃森哲(Accenture)和威普羅(Wipro)等較傳統的資訊科技公司,都是這個不斷壯大產業的一部分,據估計到了2030年,這份產業的價值將達到一百七十億美元。