基於自然語言理解的技術,衍生出「意圖識別」(intent recognition),開發者可以透過大量的對話語料訓練,讓機器能夠學習判斷對方的意圖(像是來掛失信用卡,或者想要申請提高額度),以及我們該回答他什麼樣的內容,而這個就成為真正智慧客服的技術基礎。但是,各位如果以為這樣就等於擁有了像是《鋼鐵人》的Jarvis這樣的人工智慧,之後所有的人工客服都要失業,那就大錯特錯了。
當我在機器學習與人工智慧領域學習得越久,就越讚嘆人類大腦的偉大。機器需要從成千上萬的數據(這也是最難獲得的)中學習,但它只能從人類事先定義好的輸入與輸出中學習,不會觸類旁通,也不會舉一反三,更不會有基本常識。就以意圖識別來說,如果客戶來電的意圖,不在原先預定義的範圍內,或者是客戶的對話中沒有意圖(就是所謂的說空話),那機器就會陷入無法識別的問題。甚至如果智慧客服是用純中文語料所訓練的,那麼日常生活中隨處可見的中英夾雜、注音文、表情符號,都有可能讓「人工智慧」突然變成「人工智障」的那根稻草。
目前仍無99.9%正確理解語意的機器人
那麼,究竟智慧客服這個技術真的靠得住嗎?我覺得這個要從人工智慧的本質來看,傳統的應用程式是人透過需求訪談把規則列出來,因此可以照著規則測試與驗收,不論什麼樣的輸入就能預期獲得什麼樣的輸出。但是,對於無法列出規則的需求,就束手無策了,智慧客服正是這樣的一個場景,而人工智慧可以把它想像成機器自動從數據中幫我們整理規則,也因此,它所學習到的東西會受訓練數據很大的影響。我們都聽說過80/20法則,這法則仍然適用於客服場景,那就是20%的問題就占了80%的來話量,意味著這20%的問題具有足夠多的語料可供訓練,機器可以幫我們處裡這一部分,也能夠獲得最大的人力資源紓解。
但是,當客戶問的不是這20%的問題該怎麼辦?很多人問我,什麼才是衡量一個智慧客服的最重要指標?我說絕對不是意圖識別正確率,甚至要他們小心,正確率過高,恐怕是廠商作假(我曾經看過在後台有工程師操作Pepper,以及有人在後台拿著麥克風,替號稱全世界第一個機器人公民蘇菲亞講話後,我才警覺假人工智慧無處不在)。根據最新的通用語言理解評估基準(GLUE)排行榜看來,大多數的系統都只獲得65%左右的正確率,而排名第一的微軟具有89%正確率,其實也輸給人類95%正確率一大截。更不要忘了這個評分基準全部是使用英文,而我們用的是「繁體中文」。所以,任何號稱自己可以99.9%正確理解語意、可以對話如流的機器人,請不用懷疑,一定是騙子,因為99.9%的正確率連人類都做不到。
AI讓人們有餘裕「做擅長的事」
既然意圖識別正確率不是最重要的指標,那什麼才是最重要的指標?答案就是「轉接人工客服的正確率」,雖然人工智慧在自然語言理解技術上仍在持續精進,但是現階段更重要的是如何讓機器與人類各自分工,做擅長的事,因為要求高意圖識別正確率只會逼迫廠商造假,因此在現階段技術上,更重要的是如何讓機器知道自己的能力邊界,而將自己無法判別的通話,甚至是能從文字中判斷客戶已經被搞毛了的通話(這裡涉及到另一個人工智慧技術:文字情緒識別)轉交給人工客服處理。當大部分的通話被智慧客服處理之後,人工客服當然會有更大的餘裕來處理剩下20%的各種疑難雜症,不需要擔心每通處理時長的KPI,人類特有的溫暖、專業與耐心,可以化解用戶焦躁不耐煩的心。
理想的未來絕對不是機器取代人類,在智慧客服的領域中,人機協作才是真的達到為企業降低服務成本,且兼顧用戶滿意度的唯一方案。機器的存在是為了幫人類客服分擔話務量,讓人有餘裕去做人擅長的事、溫暖的事、感動客戶真心的事。
*作者為數據決策公司技術長,trubuzz ai人工智能科學家。本文經台灣金融研訓院授權刊載,精彩全文詳見《台灣銀行家雜誌》2019年7月號。