圖靈獎得主堅稱「Sora根本不懂物理世界」一文看懂「4大技術步驟」如何做到3D一致性！核心研發團隊全員曝-風傳媒

OpenAI影音生成式AI模型「Sora」，甫推出即造成轟動，除了其逼真成品已讓許多科學家和學者基於「Sora是否搞懂了真實物理世界一事」爭論不休，Sora研究的核心團隊也被挖出，其中包含一位00後、年僅21歲！本文將以更白話的方式帶您瞭解Sora運作4步驟，理解它是如何呈現出畫面的「3D一致性」，同時掌握不同專家的觀點，也帶您深入認識這支傑出團隊成員！

透過<Google新聞> 追蹤風傳媒

Sora是怎麼運作的？

OpenAI指出，有鑑於大型語言模型（LLMs）的成功演進，Sora是一個「擴散型轉換器模型」，得以將各種類型的視覺數據（包含不同型式規格、時間或格式比例的影音或圖像）轉換成統一展現的形式。

步驟１．將視覺數據壓縮且分解為補丁（patches）

Sora首先會在網絡中將影片（一系列圖像所組成）壓縮為低維度的潛在空間表現狀態，而這個生成的潛在空間也能映射回像素空間。

接續這些「表現狀態」會被進一步分解成時空補丁（spacetime patches），而這些補丁即為模型訓練的基礎單元。

步驟２．擴散過程

在此過程中，Sora接收噪聲補丁，會再逐步「預測」原始（隨機初始化）的「乾淨」補丁。

對比來說，就像是ChatGPT生成文字時，也近似一種模型的預測過程。

OpenAI詳細圖解Sora運作技術步驟。（圖／翻攝自OpenAI官網）

步驟３．轉換器

Sora的核心運作採用了轉換器架構（Transformer architecture）概念，此階段主要為處理序列數據，Sora能有效排列補丁、建立關聯性，進而將文字、圖片生成具高度連貫性和細節豐富的影音。

步驟４．生成

最後，Sora可以在適當的網絡大小中，來控制補丁的排列和尺寸，以生成不同分辨率和不同時間長度的影音，就成了60秒的成果影片。

Sora的成品格式和解析度為何？

Sora生成的影片，最佳解析度為1920x1080或1080x1920，時長最長達60秒，同時也可以輸出2048x2048解析度圖像。

輸出大小優於ChatGPT，相對等於內部伺服器和GPU（顯卡，Graphics Processing Unit）也都比ChatGPT更好，流量更大。

此外，除了光影、液體流動、皮膚粗糙紋路得以細緻呈現以外，畫面亦給人「多鏡頭於三維（3D）空間轉換」的真實感與一致性，或呈現特定物體的不同視角型態。

Sora可以幫你做什麼？

⏹︎ 生成逼真且具個人獨特風格的影片

⏹︎ 為你的影片提升豐富度、增加內容和長度，且保持視覺風格一致性

⏹︎ 可將靜態圖片轉換為完整影片

Sora生成影像即為逼真且具細膩光影變化。（圖／翻攝自OpenAI官網）

Sora到底懂不懂物理世界？

1 2 3 全文閱讀

圖靈獎得主堅稱「Sora根本不懂物理世界」一文看懂「4大技術步驟」如何做到3D一致性！核心研發團隊全員曝

Sora是怎麼運作的？

Sora的成品格式和解析度為何？

Sora可以幫你做什麼？

Sora到底懂不懂物理世界？

蘋果Vision Pro出了什麼問題？買家狂怨「眼球充血」頭暈又頭痛　一文看懂引爆退貨潮的2大設計問題

日本GDP輸給德國「全球第3大經濟體」美名沒了！一文看懂日本走過的4條錯路　日媒示警：國際話語權恐降低

NASA飛機為何飛來台灣？彭啟明點1關鍵促成者：國立大學恩師退休前做大事

7年內「2集團1公司」接手仍破產！一文揭露The Body Shop在英經營2大致命真相　台灣總公司急公告不受影響

Sora是怎麼運作的？

Sora的成品格式和解析度為何？

Sora可以幫你做什麼？

Sora到底懂不懂物理世界？

蘋果Vision Pro出了什麼問題？買家狂怨「眼球充血」頭暈又頭痛 一文看懂引爆退貨潮的2大設計問題

日本GDP輸給德國「全球第3大經濟體」美名沒了！一文看懂日本走過的4條錯路 日媒示警：國際話語權恐降低

NASA飛機為何飛來台灣？彭啟明點1關鍵促成者：國立大學恩師退休前做大事

7年內「2集團1公司」接手仍破產！一文揭露The Body Shop在英經營2大致命真相 台灣總公司急公告不受影響

蘋果Vision Pro出了什麼問題？買家狂怨「眼球充血」頭暈又頭痛　一文看懂引爆退貨潮的2大設計問題

日本GDP輸給德國「全球第3大經濟體」美名沒了！一文看懂日本走過的4條錯路　日媒示警：國際話語權恐降低

7年內「2集團1公司」接手仍破產！一文揭露The Body Shop在英經營2大致命真相　台灣總公司急公告不受影響