「這是我第一次在媒體面前曝光,請大家高抬貴手!」DeepMind成員、AlphaGo主要設計者「Aja」黃士傑笑著說。今日,是他第一次在Google台灣辦公室公開亮相。
3月9日到15日,在Google人工智慧AlphaGo與南韓棋王李世乭的世紀對弈中,最受媒體矚目的,除了最終4:1的比賽結果外,還有這位負責落子的台灣資工博士黃士傑。
在這五場對弈中,黃士傑總是面無表情、五場比賽中沒有中途離席過、總計只喝過幾口水。南韓棋王李世乭稱讚他十分貼心,面無表情是怕影響到自己的情緒。
身為業餘六段棋士的黃士傑,其實與圍棋結緣得早,他當過圍棋老師、在博士班時期還曾開發圍棋人工智慧 Erica,打敗了當時最強的圍棋人工智慧 Zen,這個系統可以算是AlphaGo的前身。
AlphaGo是人類千年研究結晶
黃士傑提到,在1997年深藍電腦打敗西洋棋王後,複雜程度更高的圍棋成為人工智慧的一大挑戰。因為圍棋除了計算,還牽涉到人類的直覺。
這次AlphaGo為什麼有所突破?關鍵在於與深度學習(Deep Learning)的結合。AlphaGo有兩個主要的網路,第一個是策略網絡(Policy Network),第二個是價值網絡(Value Network),這兩個網路,正是AlphaGo能打敗職業九段棋士的關鍵。
第一,策略網絡。策略網絡能夠減少搜尋的廣度,例如現在有360個棋步,AlphaGo只要分辨出前20個最好的,就能撇除掉剩下的340個可能。這部分與人類的直覺相近,藉由學習人類2、30萬張棋譜而來。第二,價值網絡。意即當AlphaGo搜索到一個點時,它能夠判斷盤面,告訴你現在誰佔優勢,它減少搜尋的深度,不用搜尋到底,只要搜尋幾步就能判斷優勢或劣勢。
黃士傑也特別提到,AlphaGo的網路是人類累積千年的心血結晶。「他不是一個排除了人類的研究成果。研究是一直在進步的,正如同棋士也是一直在進步,AlphaGo吸取了所有人類學習的結晶。」
他說明,這次在賽前AlphaGo並沒有特別針對李世乭的棋譜做特別的訓練,AlphaGo對上任何人都是一樣的運算模式、也無法事先預估勝率,只能針對當下的局面做判斷。
不過,當雙方的對弈進行到第四局,AlphaGo跳出投降視窗時,自己其實也默默為李世乭開心,覺得是一次圓滿的結果。不過,現在DeepMind團隊工程師正在研究抓bug,試著釐清為什麼當李世乭下出「神之一手」時,讓AlphaGo判斷失準。