尹相志觀點:AI來襲飯碗不保?

2019-07-28 05:50

? 人氣

作者認為,理想的未來絕對不是機器取代人類,在智慧客服的領域中,人機協作才是真的達到為企業降低服務成本,且兼顧用戶滿意度的唯一方案。(示意圖,取自YouTube)

作者認為,理想的未來絕對不是機器取代人類,在智慧客服的領域中,人機協作才是真的達到為企業降低服務成本,且兼顧用戶滿意度的唯一方案。(示意圖,取自YouTube)

理想的未來絕對不是機器取代人類,在智慧客服的領域中,人機協作才是真的達到為企業降低服務成本,且兼顧用戶滿意度的唯一方案。

透過<Google新聞> 追蹤風傳媒

1964年在MIT的人工智慧實驗室中,名為「ELIZA」的聊天機器人誕生,她是史上第一個能夠與人類對談的機器人,而她的名字來自於音樂劇《窈窕淑女》的女主角,自然是她的創造人希望她能夠在持續的學習中,成為教養良好的「淑女」。2010年蘋果推出Siri,以及2014年微軟推出Cortana,科技公司不斷地推動機器能與人對話,同時也希望將這項技術應用於產業中,因此智慧客服就成為了落地的首要之選。

屈指一算,從「ELIZA」問世至今55年,機器人與人類溝通的問題真的解決了嗎?其實,從「ELIZA」一直到近年來國內多數銀行都踩過坑的中國「小i機器人」,都是屬於「模式比對」的技術,也就是在資料庫裡存放多個對話範本,根據使用者輸入的內容去比對最接近者。這個技術橫跨數十年,只不過是從精確比對進化到模糊比對而已,本質上沒有出現在範本裡的就無法回答,因此出現了之前讓眾多導入智慧客服系統的銀行怨聲載道的「每個問題必須輸入50種問法」的災難。

AI仍無法處理中文斷句難題

如果是英文,窮舉法可以達到很好的效果,但不幸的是,我們在台灣所使用的,是全世界最複雜的語言中,較為複雜的那個版本──「繁體中文」。就不提英文世界中所有字母大小寫加上數字標點,只需要80個字元就能搞定;中文光是unicode中的中日韓統一表意文字就有20,928個,若再加上注音符號、英文數字與標點,數量就遠遠超過英文。更別提中文天生沒有斷字符號,因此中文斷字成為中文數據預處理的首要難題,別說是機器,就算是人類遇到「小明明明明白白白喜歡他」或是「無線電法國別研究」這樣的斷詞難題,恐怕也只能舉白旗投降。

中文更神奇的一點在於,可以透過虛字與位置調換,將一個句子產生出多種講法。〔圖1〕是我們之前使用了2億筆天貓、淘寶的買家評論數據中抽取出來關於「送貨很快」的說法。驚人的是,2016年1月份統計有1,700多種講法,不過半年時間,2016年7月份統計,卻有高達3,600種講法。這意味著什麼?這表示任何企圖使用窮舉法來解決人機對話問題的,終將失敗。

作者使用了2億筆天貓、淘寶的買家評論數據中抽取出來關於「送貨很快」的說法,證明企圖使用窮舉法解決人機對話問題的,終將失敗。(台灣銀行家雜誌提供)
作者使用了2億筆天貓、淘寶的買家評論數據中抽取出來關於「送貨很快」的說法,證明企圖使用窮舉法解決人機對話問題的,終將失敗。(台灣銀行家雜誌提供)

「意圖識別」成為AI客服技術基礎

人機對話、溝通只是個不切實際的夢想嗎?這波人工智慧浪潮的基礎技術「深度學習」為我們開了一扇窗。深度學習與之前機器學習最大的差別,在於機器學習透過分析人員或是產業知識專家來定義特徵,再交給機器找規則;而深度學習則是從產生特徵到產生規則統統由機器處理。機器可以經由讀取大量語料後,根據文字的上下文關係,無監督地找出其中規則,更能夠根據人類給予的標籤進行監督式的分類預測。也因此,文字分析的技術從過去強調將非結構數據轉換為結構化格式的「自然語言處理」(NLP),正式進化為「自然語言理解」(Nature Language Understanding, NLU),雖然還不甚完美,但是機器開始能夠理解我們人類的語言。以〔圖2〕為例,這是我使用了2.9億個中文句子訓練出來的詞向量,若是我們希望透過類比關係來找出「張惠妹之於阿妹,那周杰倫會之於什麼?」機器可以正確地回答「周董」,而我們詢問「雙子座之於花心,處女座會之於什麼?」機器也能正確地回答「潔癖」。

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章