美國人工智慧開發公司OpenAI於29日發表語音AI模型「Voice Engine」,該模型只需使用文字輸入和15秒的說話聲音樣本,就能產生與原說話者相似的語音,而該語音是帶有情感且逼真。
OpenAI在其官網說明,OpenAI致力於開發安全且讓大眾受益的AI技術,近期他們公開名為「Voice Engine(語音引擎)」AI模型,使用者只要輸入文字還有15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音,而且是帶有豐富情感的,相當逼真。
「Voice Engine」早期應用
為了瞭解這項技術用途,OpenAI私底下和一群夥伴進行測試,他們將此語音AI模型應用於以下情境:
1.透過自然流暢、情感豐富的聲音,為不識字者及兒童提供閱讀輔助
2.直接翻譯影片和podcast內容。像是在演講時,直接將講者的聲音翻譯成多種語言,使全球觀眾同時收看、不再受語言隔閡。
3.幫助患有突發性或退化性言語疾病的患者恢復聲音。
「Voice Engine」隱憂及OpenAI對策
事實上,OpenAI公司也意識到該AI技術存在嚴重風險,尤其是「選舉年」,若被有心人士生成虛假訊息、仇恨訊息,後果不堪設想。
因此OpenAI也設立了「使用政策」,該政策禁止在未經同意或合法權利的情況下冒充其他個人或組織,原說話者必須知情且同意允許AI模型使用其聲音;而使用者也應明確地向觀眾揭露該聲音為「AI生成」。另外,他們設立一套安全措施,像是添加「浮水印」以追蹤Voice Engine生成音訊來源並主動監控其使用方式。
OpenAI曝未提供「Voice Engine」廣泛使用原因
OpenAI表示,目前不打算公開讓大眾使用這項技術,反而是希望透過讓大眾知曉這技術,了解AI的潛力、增強抵禦能力,以應對生成模型所帶來的挑戰,像是逐步淘汰線上銀行帳戶的聲紋認證、初步探索保護AI使用個人聲音的政策、教育大眾AI的能力和侷限性並清楚AI詐騙的可能性、加速開發相關語音技術。