Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?
— Jim Fan (@DrJimFan) May 12, 2024
Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
在OpenAI發布會前夕,輝達(Nvidia)的高級研究經理暨Embodied AI負責人范麟熙(Jim Fan)其實就在X上透露了OpenAI的底牌—即時語音助理。范麟熙也解釋了為什麼過去的生成式人工智慧即便再聰明,為何感覺還是有些「遲鈍」(或者說回應延遲)。范麟熙分析,幾乎所有的AI語音都要經歷三個階段: 1.語音辨識(ASR),也就是從語音轉換為文字;2.利用大型語言模型(LLM)運算出接下來的回應;3.利用語音合成(TTS)把文字轉換成語音輸出。
范麟熙表示,就是這三個階段讓AI的語音輸入與回應出現難以忍受的延遲。畢竟如果每次溝通都要等上5秒鐘,AI才會開始慢吞吞地說話,使用者體驗當然就會跌落懸崖。就算語音合成聽起來很真實,使用AI的沉浸感也會大打折扣,甚至讓人感覺AI毫無生氣,因為自然對話本來就不是這樣的。人類在彼此對話時,總是一邊聽一邊想一邊說,還會在適當的時候表示「是、嗯、呵呵」,更會預測對方什麼時候說到一個段落,立刻接上話,也能在不冒犯對方的情況談論對方,最後妥適地結束話題。
范麟熙認為,要把語音AI做好,不是把三個階段分別變快那麼簡單,而是要讓三個程序同時進行,他感嘆蘋果的Siri還是像一年半以前一樣糟糕,也期待OpenAI能把語音AI推進到什麼地步。在OpenAI發表GPT-4o之後,范麟熙推測OpenAI可能開發了自己的神經網路串流視訊編解碼器,讓通訊協定與神經網路推理共同優化,才能把語音模型處理的這麼好。范麟熙認為OpenAI就是為了Google I/O 大會提前上菜,把尚未完成的GPT-5早期版本端出來,甚至認為蘋果可以考慮拋棄進展有限的Siri,直接與OpenAI的GPT-4o合作。
至於GPT-4o究竟有多厲害,雖然OpenAI現在還沒有完全開放給所有人使用,從官方的宣傳影片與展示會的分段說明,也可先讓有興趣的朋友逐一「聞香」,這些官方的示範功能包括了:
》即時交談,並且建議使用者深呼吸緩解緊張
》閱讀程式碼、理解圖表
》兩個AI相互交談、唱歌
》兩個AI唱歌和聲
》教三角函數
》協助視障者理解世界
》即時口譯
》讓GPT-4o參加多人視訊會議