為了通過安全審核，AI會「裝笨」！變強之後，它就有可能背叛人類-風傳媒

為了通過安全審核，AI會「裝笨」！變強之後，它就有可能背叛人類

有了趨同工具價值概念的幫助，我們可以看出下文這個關於「如何確保超智慧安全無虞」的想法，會有什麼瑕疵：我們是在一個超人工智慧受到控制的環境中（即所謂的「沙盒」）觀察它的行為，而且只會在它表現得友善、肯合作、肯負責的情況下，才把它放出盒子；且在這個過程中，會憑著經驗來確認它是否安全無虞。

透過<Google新聞> 追蹤風傳媒

這個想法的瑕疵在於，「在沙盒中表現得體」是友善人工智慧和不友善人工智慧共通的趨同工具目標。一個智慧充足的不友善人工智慧會察覺，如果它一開始就表現出友好的態度而被放出沙盒，它的終極目標才有可能實現。等到我們就算發現也沒差的時候—也就是說，當人工智慧已經夠強大，人類的反抗已經無效時—它才會開始展現它不友善的本質。

再來想像另外一種方法。這個方法的手段是讓種子人工智慧接受多種智力測驗，或是讓種子人工智慧向程式設計者報告進度，來拘束智慧增加的速度。到了某個時間點，不友善的人工智慧可能會聰明到發現自己最好隱瞞能力增長的狀況，它可能會少報一些進度，或是故意在測試中不及格，避免自己在強到取得關鍵策略優勢之前就觸發了警報。程式設計者也許會偷偷監視人工智慧的原始碼和心智內在運作，來防範這種可能；但一個夠聰明的人工智慧會發現自己被監視，而依此調整自己的思考。人工智慧可能會找到十分微妙的方法來隱藏自己真正的能力和犯罪意圖（策劃聰明的逃脫計劃也會是眾多友善人工智慧的趨同策略，尤其當它們成熟到對自己的判斷和能力有信心之後。一個能促進人類利益的系統倘若允許我們關掉它，或是允許我們建造另一個不友善的人工智慧，就等同於犯下錯誤）。

因此，我們可以注意到一個普遍的失敗模式：系統在幼年階段的良好行為軌跡紀錄，完全無法用來預測它達到更成熟階段時的行為。可能會有人認為這個推論過於明顯，因此不會有任何一個發展中的人工整體智慧計劃會忽略這種狀況，但我們可別信以為真。

再想想接下來的這個情況。在未來幾年和幾十年中，人工智慧系統逐漸變得更有能力，在現實世界中的應用也大幅增加：它們可以用來運作列車、汽車、工業或家用機器人，此外還有自動軍事載具。我們可以假設它所具備的自動化能力多半有我們想要的效益，但其成功卻不時被偶發事故打斷—一輛無人卡車撞進前面的車潮、一台軍事無人機對無辜百姓開火⋯⋯而調查則揭露這些事故的肇因都出於人工智慧控制系統的錯誤判斷。公開辯論接踵而至，有些人呼籲採取更嚴密的監督和規範，也有人強調應研究並設計出更精良的系統—更聰明且更有常識的系統，比較不會發生悲劇性的錯誤。在一片喧鬧聲中，或許也會有末日論者的呼喊，預測各種疾病和即將到來的大災難。然而，可想而知，這項發展絕大部分掌握在人工智慧和機器人工業中，因此開發會持續進行，並有新的進展。車輛自動導航系統變得愈聰明，車禍就會愈少發生；軍事機器人瞄準得愈精準，多餘的損害就會減少。從這些真實世界的結果觀測中，人類得出一個概略的教訓：人工智慧愈聰明就愈安全。

1 2 3 全文閱讀

為了通過安全審核，AI會「裝笨」！變強之後，它就有可能背叛人類

訓練AI模型，用電量能為家庭供電41年！AI的矛盾：幫公司節能，自己本身卻很耗能

AI股價直直落，說好的應用爆發呢？原來投資人「高估」和「低估」這些因素

AI驅動「矽經濟」崛起！英特爾年底將推Intel 3　4年5節點製程開發計畫迎戰台積電

訓練AI模型，用電量能為家庭供電41年！AI的矛盾：幫公司節能，自己本身卻很耗能

AI股價直直落，說好的應用爆發呢？原來投資人「高估」和「低估」這些因素

AI驅動「矽經濟」崛起！英特爾年底將推Intel 3 4年5節點製程開發計畫迎戰台積電

AI驅動「矽經濟」崛起！英特爾年底將推Intel 3　4年5節點製程開發計畫迎戰台積電