人類有一項特殊的能力,能夠在眾多吵雜的聲音中,辨識出我們熟悉、想聽的聲音,「過濾」掉其他雜訊,專注在說話的對象上,而機器要做到這樣的程度,在過去一直被認為是一件相對困難的事。
最近Google研究人員,利用深度學習、影像模型打造出一套系統,能夠辨識出畫面中說話人物的聲音,依照需求強化特定人士的聲音,消除其他人聲、環境音,這項功能將來可以應用在多人的電話、視訊會議中,或者在多人爭辯的政論節目中,幫助我們清楚聽見特定人士的觀點。
利用深度學習,分離不同聲音來源
「人們很擅長在吵雜的環境中,將注意力放在特定的人身上,心理上將其他人與背景聲音靜音。」Google軟體工程師Inbar Mosseri 、Oran Lang認為,這是人類一項先天的能力,可以將眾多聲音區分成各種音源,但過去許多研究都認為,這對電腦來說仍是一項重大挑戰。
根據最新一份叫「Looking to Listen at the Cocktail Party」研究,研究人員透過深度學習,同步分析影片中的影像與聲音,能單從說話者的臉部表情,就辨別出是誰在說話,觀眾只要點選畫面中特定人臉,就能聽見想聽的聲音來源。研究人員使用10萬支、總長度達2,000小時的單一講者影片,訓練系統辨識個別聲音,接著混入其他影片增加背景雜音,一步一步教懂AI辨別不同音軌,最後會產生一套模型。
完成訓練後,這套系統只要偵測到任何影片中有嘴巴在動,系統會去抓取該來源的音檔,並將其他雜音去除。而這套系統之所以厲害,是因為不僅可以去除環境中的雜音,更可以在多人大聲、激烈交雜談話的同時,還能將目標的聲音細緻地分析出來,即便過程中說話的人麥克風不小心遮住嘴型,這套系統依然可以不受干擾的執行。
聽清楚想聽的意見,政論節目將能改善閱聽品質
Google表示,目前仍在探索一切應用的可能,「我們相信這項軟體可以有許多應用,特別是在有許多人說話的吵雜環境,例如增強影片聲音辨識、視訊會議、改良助聽器。」
若這項軟體真的普及,將能改善許多生活中痛苦的經驗,Google可以將這套軟體導入自家Hangouts、Duo這類語音視訊軟體,多人會議時就能過濾背景雜音,增加理解效率,甚至也能改善傳統助聽器無法分離聲音的缺點,未來自動翻譯軟體也能因此受惠。
Google官方釋出了一段影片,畫面中兩位主播激烈的針對議題爭論,聲音重疊時幾乎難以聽清楚任何一方的意見,透過軟體強化左邊主播聲音後,就能清楚聽見單方意見。台灣今年是選舉年,各種議題的辯論將會大量出現,不論是電視政論節目、廣播、網路直播、Podcast,往後若能應用這套軟體,想必能幫助更多閱聽人舒服、有效率的,吸收各種不同的討論內容。
文 / 高敬原
本文經授權轉載自數位時代(原標題:用AI聽你想聽的聲音,Google能在吵雜影片中偵測特定人聲)
責任編輯/趙元