圖靈獎得主堅稱「Sora根本不懂物理世界」一文看懂「4大技術步驟」如何做到3D一致性!核心研發團隊全員曝

2024-02-21 18:27

? 人氣

Sora核心團隊僅13人,不僅主要領導人為年輕應屆博士,甚至有一名「00後」成員,團隊成立不到一年「高強度工作」終順利研發出Sora模型。(合成圖)

Sora核心團隊僅13人,不僅主要領導人為年輕應屆博士,甚至有一名「00後」成員,團隊成立不到一年「高強度工作」終順利研發出Sora模型。(合成圖)

OpenAI影音生成式AI模型「Sora」,甫推出即造成轟動,除了其逼真成品已讓許多科學家和學者基於「Sora是否搞懂了真實物理世界一事」爭論不休,Sora研究的核心團隊也被挖出,其中包含一位00後、年僅21歲!本文將以更白話的方式帶您瞭解Sora運作4步驟,理解它是如何呈現出畫面的「3D一致性」,同時掌握不同專家的觀點,也帶您深入認識這支傑出團隊成員!

透過<Google新聞> 追蹤風傳媒

Sora是怎麼運作的?

OpenAI指出,有鑑於大型語言模型(LLMs)的成功演進,Sora是一個「擴散型轉換器模型」,得以將各種類型的視覺數據(包含不同型式規格、時間或格式比例的影音或圖像)轉換成統一展現的形式。

步驟1.將視覺數據壓縮且分解為補丁(patches)

Sora首先會在網絡中將影片(一系列圖像所組成)壓縮為低維度的潛在空間表現狀態,而這個生成的潛在空間也能映射回像素空間。

接續這些「表現狀態」會被進一步分解成時空補丁(spacetime patches),而這些補丁即為模型訓練的基礎單元。

步驟2.擴散過程

在此過程中,Sora接收噪聲補丁,會再逐步「預測」原始(隨機初始化)的「乾淨」補丁。

對比來說,就像是ChatGPT生成文字時,也近似一種模型的預測過程。

(圖/翻攝自OpenAI官網)
OpenAI詳細圖解Sora運作技術步驟。(圖/翻攝自OpenAI官網)

步驟3.轉換器

Sora的核心運作採用了轉換器架構(Transformer architecture)概念,此階段主要為處理序列數據,Sora能有效排列補丁、建立關聯性,進而將文字、圖片生成具高度連貫性和細節豐富的影音。

步驟4.生成

最後,Sora可以在適當的網絡大小中,來控制補丁的排列和尺寸,以生成不同分辨率和不同時間長度的影音,就成了60秒的成果影片。

Sora的成品格式和解析度為何?

Sora生成的影片,最佳解析度為1920x1080或1080x1920,時長最長達60秒,同時也可以輸出2048x2048解析度圖像。

輸出大小優於ChatGPT,相對等於內部伺服器和GPU(顯卡,Graphics Processing Unit)也都比ChatGPT更好,流量更大。

此外,除了光影、液體流動、皮膚粗糙紋路得以細緻呈現以外,畫面亦給人「多鏡頭於三維(3D)空間轉換」的真實感與一致性,或呈現特定物體的不同視角型態。

Sora可以幫你做什麼?

⏹︎ 生成逼真且具個人獨特風格的影片

⏹︎ 為你的影片提升豐富度、增加內容和長度,且保持視覺風格一致性

⏹︎ 可將靜態圖片轉換為完整影片

(圖/翻攝自OpenAI官網)
Sora生成影像即為逼真且具細膩光影變化。(圖/翻攝自OpenAI官網)

Sora到底懂不懂物理世界?

本篇文章共 1 人贊助,累積贊助金額 $ 150

喜歡這篇文章嗎?

周育信喝杯咖啡,

告訴我這篇文章寫得真棒!

來自贊助者的話
關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章