最近都在傳 Sora 2。不是小更新,算是一個...嗯,大跳躍。
聽說 2025 會是 AI 影片元年,現在看來,好像真的有那個味道了。OpenAI 這次的東西,在物理、動態,甚至聲音上,都不太一樣。
花了一週時間,泡在裡面。不是在官方網站,因為還沒公開。用的是一個叫 Pollo AI 的第三方平台,它串接了模型。我想知道它的極限在哪,所以試了很多亂七八糟的 prompt。
結果...比我想的要撐得久。
TL;DR
簡單講,Sora 2 是第一個讓我有時候會忘記「這是 AI 生成的」影片工具。它不只是在「畫」影像,它好像...試著去「理解」為什麼東西會這樣動。當然,破綻還是有,但那個方向對了。
我到底測了些什麼?
我的測試重點很簡單:它到底有多「真」?風格能不能穩住?還有,它到底聽不聽得懂人話?
跑了幾十個 prompts。從簡單的物理測試到需要連戲的多場景故事。還有對嘴、環境音這些。就是想把它搞壞。
第一個測試,物理跟真實感。
Prompt: 籃球彈框而出,球員跳起沒接到,球打到籃板,觀眾反應時鏡頭稍微拉近。
這 prompt 以前的模型基本上都會崩。球會瞬移,人像木偶。但 Sora 2...嗯,處理得很好。球的弧線、撞擊的重量感、反彈的延遲...都對。連球員落地那個慣性,都模擬出來了。那種感覺,很細微。
再來,是動態的流暢度和風格一致性。
Prompt: 吉卜力風格的舞者在陽光下的草地上優雅旋轉,微風吹拂著草地,鏡頭以同樣的吉卜力畫風環繞她。
這個很難。又要維持動態,又要維持畫風。很多 AI 工具在鏡頭一動的時候,風格就跑掉了,畫面會閃爍,像水彩沒乾就混在一起。但 Sora 2 把動畫風格...穩住了。鏡頭滑順,光線變化自然。舞者的形體在旋轉中沒有崩壞,頭髮和裙擺的飄動也跟動作同步。這點蠻厲害的。
說到這個,聲音跟對嘴,以前一直都是 AI 影片的罩門。
Prompt: 記者在記者會的講台上發言,背景有環境人聲雜音、麥克風回授聲,演講結束後有輕微的掌聲。
結果...嘴型跟對話幾乎對得上。沒有那種機器人式的延遲。你甚至可以聽到空間的回音、相機的快門聲,還有麥克風那種細微的嗡嗡聲。以前的模型要嘛是啞巴影片,要嘛得自己花時間去配音。Sora 2 算是...出場就帶了音效師。
所以,它跟其他模型比起來到底怎樣?
老實說,每個模型都有它強跟弱的地方。Sora 2 不是全方位輾壓,但它在某些地方的確是...嗯,跨出去了。我憑印象和一些國外論壇的討論,整理了一個大概的感覺。
像 Google 的 Veo,聽說在理解自然語言和生成較長影片上很有一套,這點跟 OpenAI 官宣的也差不多。不過 Sora 2 在「物理真實感」這件事上,我自己測下來的體感是目前最強的。 Runway 和 Gen-3 這種,我覺得它們在「可控性」和「風格化」上已經很成熟,工具鍊很完整,但就是...有時候會覺得少了點「靈魂」?
| 模型 | 我覺得的強項 | 我覺得的弱項 | 適合拿來幹嘛 |
|---|---|---|---|
| Sora 2 (OpenAI) | 物理世界模擬得超像。還有那個多鏡頭連戲的能力...真的有驚到我。 | 手部細節、複雜文字還是會破功。太長的鏡頭有時候會自己「腦補」到歪掉。 | 做那種...需要故事感、看起來像「真的拍出來」的短片。 |
| Veo 3 (Google) | 聽說對 prompt 的理解更細膩。然後能做比較長的影片,好像超過一分鐘。 | 還沒大規模開放,看範例...感覺風格有時候有點「Google味」,太乾淨了? | 需要長敘事、而且 prompt 比較複雜的內容吧。 |
| Gen-3 (Runway) | 控制力超強。可以微調的東西很多,像是相機運動、角色鎖定。 | 嗯...就是那個「AI感」還是比較重一點。真實感跟 Sora 2 比有差。 | 給那些想精準控制畫面的創作者,或是做風格強烈的 MV。 |
| Luma Dream Machine | 免費仔的福音(有額度限制啦)。運鏡跟物體動態很不錯,蠻滑順的。 | 人物變形、細節崩壞的問題還蠻常見的。感覺還在快速迭代。 | 快速把一個想法視覺化,做點動態概念圖,很夠用了。 |
那...它在哪裡會「壞掉」?
每個模型都有它的極限。吹得再神,還是要看它處理不了什麼。我特別用了一些「刁難」的 prompt 去試。
Prompt: 一個蒸汽龐克發明家,站在一個無限反射的鏡子房間裡,戴著黃銅護目鏡,調整他發光的手錶。鏡子邊框上要有清晰可讀的雕刻文字,並有手部、齒輪和煙霧的超細節特寫。
這個 prompt 根本是來找碴的。鏡子、無限反射、清晰文字、手部細節...全是 AI 的死穴。
結果呢?Sora 2 撐得比我想像的久。
反射基本上是對的,沒有亂七八糟的複製人或扭曲的臉。鏡框上的文字...嗯,快要可以讀了,但還是一堆亂碼。手部的細節,還是那個老問題,有時候多一根或少一根指頭,但比舊模型好太多了。金屬和手套的紋理很清晰,煙霧的捲動也很真實。
所以結論是,它還是會壞。尤其是在處理「訊息密度」太高的畫面時,像是精細的文字或複雜的手部動作。還有,當你要求一個非常、非常長的連續鏡頭時,你會感覺到它...嗯,開始「忘記」前面的細節,物件或場景會慢慢變形。這點跟我們在台灣習慣看的那種短影音節奏不同,短影音每個 cut 都很短,很適合現在 AI 的能力範圍。但如果要拍長對話或長鏡頭,可能還是得靠傳統方法。
所以到底要怎麼用?
我用的 Pollo AI 介面還算直觀。就是打字、丟圖、選規格。
你可以用文字 prompt,也可以丟一張參考圖,讓它試著生成同樣風格或角色的影片。這點在需要角色一致性的時候,蠻重要的。
prompt 可以用任何語言,它有個「翻譯 Prompt」的開關,會自動轉成英文。然後就選影片比例(橫的或直的),接著選長度。目前看到的是 4 秒、8 秒、12 秒的選項。秒數越長,消耗的點數(credits)就越多。4 秒大概 30 點,12 秒就要 90 點。
整個流程就是...打字、等待、看結果、修改 prompt、再試一次。大部分 prompt 第一次或第二次就能拿到可以用的片段。對了,這跟 OpenAI 官方之前在自家部落格發布的技術細節不太一樣,他們提到的是「diffusion transformer」架構,但我們在第三方平台上,能碰到的就只有這些前端的操作選項而已。
最後的一些想法
用了一週,感覺 Sora 2 不再只是個「玩具」。它真的很接近...嗯,能講故事的影片生成工具了。
最讓我驚訝的不是真實感本身,而是用它來「創作」的過程,感覺很順。你的想法可以直接變成一個場景,而不是一連串失敗的實驗。這點差很多。
當然,它還是會犯錯。手、文字、超長鏡頭...這些破綻會時不時提醒你,它終究是個模型,不是攝影師。但它進步的速度,說真的,有點嚇人。
如果這是 AI 影片現在的水準,那下一代...可能真的會重新定義我們看故事的方式。
換你說說看:
如果現在就能讓你免費使用 Sora 2 一天,你最想生成什麼樣的影片?在下面留言分享你的瘋狂點子吧!
