SORA 2實測一週心得：功能優勢、真實體驗與常見疑問解析

最近都在傳 Sora 2。不是小更新，算是一個...嗯，大跳躍。

聽說 2025 會是 AI 影片元年，現在看來，好像真的有那個味道了。OpenAI 這次的東西，在物理、動態，甚至聲音上，都不太一樣。

花了一週時間，泡在裡面。不是在官方網站，因為還沒公開。用的是一個叫 Pollo AI 的第三方平台，它串接了模型。我想知道它的極限在哪，所以試了很多亂七八糟的 prompt。

結果...比我想的要撐得久。

TL;DR

簡單講，Sora 2 是第一個讓我有時候會忘記「這是 AI 生成的」影片工具。它不只是在「畫」影像，它好像...試著去「理解」為什麼東西會這樣動。當然，破綻還是有，但那個方向對了。

我到底測了些什麼？

我的測試重點很簡單：它到底有多「真」？風格能不能穩住？還有，它到底聽不聽得懂人話？

跑了幾十個 prompts。從簡單的物理測試到需要連戲的多場景故事。還有對嘴、環境音這些。就是想把它搞壞。

第一個測試，物理跟真實感。

Prompt: 籃球彈框而出，球員跳起沒接到，球打到籃板，觀眾反應時鏡頭稍微拉近。

這 prompt 以前的模型基本上都會崩。球會瞬移，人像木偶。但 Sora 2...嗯，處理得很好。球的弧線、撞擊的重量感、反彈的延遲...都對。連球員落地那個慣性，都模擬出來了。那種感覺，很細微。

再來，是動態的流暢度和風格一致性。

Prompt: 吉卜力風格的舞者在陽光下的草地上優雅旋轉，微風吹拂著草地，鏡頭以同樣的吉卜力畫風環繞她。

這個很難。又要維持動態，又要維持畫風。很多 AI 工具在鏡頭一動的時候，風格就跑掉了，畫面會閃爍，像水彩沒乾就混在一起。但 Sora 2 把動畫風格...穩住了。鏡頭滑順，光線變化自然。舞者的形體在旋轉中沒有崩壞，頭髮和裙擺的飄動也跟動作同步。這點蠻厲害的。

說到這個，聲音跟對嘴，以前一直都是 AI 影片的罩門。

Prompt: 記者在記者會的講台上發言，背景有環境人聲雜音、麥克風回授聲，演講結束後有輕微的掌聲。

結果...嘴型跟對話幾乎對得上。沒有那種機器人式的延遲。你甚至可以聽到空間的回音、相機的快門聲，還有麥克風那種細微的嗡嗡聲。以前的模型要嘛是啞巴影片，要嘛得自己花時間去配音。Sora 2 算是...出場就帶了音效師。

所以，它跟其他模型比起來到底怎樣？

老實說，每個模型都有它強跟弱的地方。Sora 2 不是全方位輾壓，但它在某些地方的確是...嗯，跨出去了。我憑印象和一些國外論壇的討論，整理了一個大概的感覺。

像 Google 的 Veo，聽說在理解自然語言和生成較長影片上很有一套，這點跟 OpenAI 官宣的也差不多。不過 Sora 2 在「物理真實感」這件事上，我自己測下來的體感是目前最強的。 Runway 和 Gen-3 這種，我覺得它們在「可控性」和「風格化」上已經很成熟，工具鍊很完整，但就是...有時候會覺得少了點「靈魂」？

模型	我覺得的強項	我覺得的弱項	適合拿來幹嘛
Sora 2 (OpenAI)	物理世界模擬得超像。還有那個多鏡頭連戲的能力...真的有驚到我。	手部細節、複雜文字還是會破功。太長的鏡頭有時候會自己「腦補」到歪掉。	做那種...需要故事感、看起來像「真的拍出來」的短片。
Veo 3 (Google)	聽說對 prompt 的理解更細膩。然後能做比較長的影片，好像超過一分鐘。	還沒大規模開放，看範例...感覺風格有時候有點「Google味」，太乾淨了？	需要長敘事、而且 prompt 比較複雜的內容吧。
Gen-3 (Runway)	控制力超強。可以微調的東西很多，像是相機運動、角色鎖定。	嗯...就是那個「AI感」還是比較重一點。真實感跟 Sora 2 比有差。	給那些想精準控制畫面的創作者，或是做風格強烈的 MV。
Luma Dream Machine	免費仔的福音（有額度限制啦）。運鏡跟物體動態很不錯，蠻滑順的。	人物變形、細節崩壞的問題還蠻常見的。感覺還在快速迭代。	快速把一個想法視覺化，做點動態概念圖，很夠用了。

那...它在哪裡會「壞掉」？

每個模型都有它的極限。吹得再神，還是要看它處理不了什麼。我特別用了一些「刁難」的 prompt 去試。

Prompt: 一個蒸汽龐克發明家，站在一個無限反射的鏡子房間裡，戴著黃銅護目鏡，調整他發光的手錶。鏡子邊框上要有清晰可讀的雕刻文字，並有手部、齒輪和煙霧的超細節特寫。

這個 prompt 根本是來找碴的。鏡子、無限反射、清晰文字、手部細節...全是 AI 的死穴。

結果呢？Sora 2 撐得比我想像的久。

反射基本上是對的，沒有亂七八糟的複製人或扭曲的臉。鏡框上的文字...嗯，快要可以讀了，但還是一堆亂碼。手部的細節，還是那個老問題，有時候多一根或少一根指頭，但比舊模型好太多了。金屬和手套的紋理很清晰，煙霧的捲動也很真實。

所以結論是，它還是會壞。尤其是在處理「訊息密度」太高的畫面時，像是精細的文字或複雜的手部動作。還有，當你要求一個非常、非常長的連續鏡頭時，你會感覺到它...嗯，開始「忘記」前面的細節，物件或場景會慢慢變形。這點跟我們在台灣習慣看的那種短影音節奏不同，短影音每個 cut 都很短，很適合現在 AI 的能力範圍。但如果要拍長對話或長鏡頭，可能還是得靠傳統方法。

所以到底要怎麼用？

我用的 Pollo AI 介面還算直觀。就是打字、丟圖、選規格。

你可以用文字 prompt，也可以丟一張參考圖，讓它試著生成同樣風格或角色的影片。這點在需要角色一致性的時候，蠻重要的。

prompt 可以用任何語言，它有個「翻譯 Prompt」的開關，會自動轉成英文。然後就選影片比例（橫的或直的），接著選長度。目前看到的是 4 秒、8 秒、12 秒的選項。秒數越長，消耗的點數（credits）就越多。4 秒大概 30 點，12 秒就要 90 點。

整個流程就是...打字、等待、看結果、修改 prompt、再試一次。大部分 prompt 第一次或第二次就能拿到可以用的片段。對了，這跟 OpenAI 官方之前在自家部落格發布的技術細節不太一樣，他們提到的是「diffusion transformer」架構，但我們在第三方平台上，能碰到的就只有這些前端的操作選項而已。