OpenAI影音生成式AI模型「Sora」,甫推出即造成轟動,除了其逼真成品已讓許多科學家和學者基於「Sora是否搞懂了真實物理世界一事」爭論不休,Sora研究的核心團隊也被挖出,其中包含一位00後、年僅21歲!本文將以更白話的方式帶您瞭解Sora運作4步驟,理解它是如何呈現出畫面的「3D一致性」,同時掌握不同專家的觀點,也帶您深入認識這支傑出團隊成員!
Sora是怎麼運作的?
OpenAI指出,有鑑於大型語言模型(LLMs)的成功演進,Sora是一個「擴散型轉換器模型」,得以將各種類型的視覺數據(包含不同型式規格、時間或格式比例的影音或圖像)轉換成統一展現的形式。
步驟1.將視覺數據壓縮且分解為補丁(patches)
Sora首先會在網絡中將影片(一系列圖像所組成)壓縮為低維度的潛在空間表現狀態,而這個生成的潛在空間也能映射回像素空間。
接續這些「表現狀態」會被進一步分解成時空補丁(spacetime patches),而這些補丁即為模型訓練的基礎單元。
步驟2.擴散過程
在此過程中,Sora接收噪聲補丁,會再逐步「預測」原始(隨機初始化)的「乾淨」補丁。
對比來說,就像是ChatGPT生成文字時,也近似一種模型的預測過程。
步驟3.轉換器
Sora的核心運作採用了轉換器架構(Transformer architecture)概念,此階段主要為處理序列數據,Sora能有效排列補丁、建立關聯性,進而將文字、圖片生成具高度連貫性和細節豐富的影音。
步驟4.生成
最後,Sora可以在適當的網絡大小中,來控制補丁的排列和尺寸,以生成不同分辨率和不同時間長度的影音,就成了60秒的成果影片。
Sora的成品格式和解析度為何?
Sora生成的影片,最佳解析度為1920x1080或1080x1920,時長最長達60秒,同時也可以輸出2048x2048解析度圖像。
輸出大小優於ChatGPT,相對等於內部伺服器和GPU(顯卡,Graphics Processing Unit)也都比ChatGPT更好,流量更大。
此外,除了光影、液體流動、皮膚粗糙紋路得以細緻呈現以外,畫面亦給人「多鏡頭於三維(3D)空間轉換」的真實感與一致性,或呈現特定物體的不同視角型態。
Sora可以幫你做什麼?
⏹︎ 生成逼真且具個人獨特風格的影片
⏹︎ 為你的影片提升豐富度、增加內容和長度,且保持視覺風格一致性
⏹︎ 可將靜態圖片轉換為完整影片