一句話先說結論

你修好了臉，但場景還在漂——這是 AI 音樂影片「看起來假」的另一半根源，而且大多數人根本沒意識到。 鎖住主角的臉只解決了一半問題；讓同一個地點跨鏡頭看起來是「同一個地方」，才是另一半。這篇給你一套逐鏡鎖場景的方法，以及 SunoMV 故事化音樂影片產生器裡現成的場景庫工具。

讀完你會知道：為什麼「客廳」在第 3 鏡和第 9 鏡會變成兩個完全不同的客廳；場景一致性和角色一致性為什麼必須分開處理；以及怎麼用一句場景描述（外加一張可選的參考圖）把整首歌的地點釘死。

AI music video scene consistency

你修好了臉，場景卻開始「漂」

先恭喜你——如果你已經在用參考圖鎖主角的臉，你已經跨過了 AI 音樂影片最難的關卡（如果還沒，先讀 AI 音樂影片角色不崩壞指南）。

但你很快就會發現第二個坑：臉對了，地方不對了。

典型症狀：

症狀	表現	為什麼發生
同名異地	主歌的「臥室」和副歌的「臥室」是兩個房間	每一鏡獨立產生，模型每次重新「想像」臥室長什麼樣
時段亂跳	這鏡窗外白天，下鏡窗外黑夜，下下鏡又白天	prompt 沒鎖光線／時間，模型自由發揮
佈景漂移	沙發從布面變皮面、牆色從米白變灰藍	沒有任何東西約束「傢俱／牆面／材質」
室內外穿幫	副歌在「頂樓陽台」，轉場影片卻把陽台接到了走廊	相鄰鏡頭各自為政，地點不連續

人腦對場景一致性的敏感度確實低於對人臉的敏感度——但低不等於零。觀眾不一定說得出哪裡不對，卻會下意識覺得「這部片是拼湊出來的」。一支 MV 的「質感」，一半來自臉不崩，另一半就來自這裡：地方是同一個地方。

場景一致性 ≠ 角色一致性：兩件事，兩套鎖

很多人把場景當成「角色的背景」順手處理，這是錯的。角色和場景在生成模型眼裡是兩類完全不同的約束：

維度	角色（Character）	場景（Scene）
本質	身分：鎖的是「這是誰」——臉、髮型、膚色	環境：鎖的是「這是哪」——地點、佈景、構圖基底
一個鏡頭裡有幾個	可能多個（主角＋配角同框）	通常只有一個（一鏡發生在一個地方）
主要載體	參考圖幾乎是必須的（不傳就換臉）	描述為主，參考圖可選——「霓虹雨夜的頂樓陽台」一句話往往就夠了
變化的是什麼	人在動（姿態、表情、走位）	地方不動（人在場景裡活動，場景是舞台）

記住這條：角色鎖的是「不許換人」，場景鎖的是「不許換地方，只許換人在地方裡的動作」。 兩套鎖的措辭、載體、用法都不一樣，混在一起處理必然顧此失彼。

場景鎖定三件套

1. 建一個「場景庫」，而不是每鏡臨時寫

最大的錯誤是：在每個鏡頭的 prompt 裡臨時描述場景。第 3 鏡寫「在客廳」，第 9 鏡寫「在客廳裡」——兩句話不一樣，模型就給你兩個客廳。

正確做法是把場景抽出來、重複使用：一首歌通常就 3～5 個固定場景（客廳、街道、頂樓陽台、車裡……），建一次，每個用到這個場景的鏡頭都指向同一條。同一條＝同一段描述＋同一張參考圖＝模型每次拿到的約束完全一致＝地點不漂。

這正是 SunoMV 把「場景」做成**一個獨立庫（最多 5 個）**而不是鏡頭內嵌欄位的原因——它逼你重複使用，而重複使用就是一致性的來源。

2. 描述為主：一兩句話釘死地點、時段、佈景

場景的主軸是文字描述，不是圖。一句好的場景描述應該鎖住三件事：

地點＋時段：「老城區頂樓陽台，黃昏，夕陽壓在天際線上」
佈景關鍵物：「生鏽的水塔、曬衣繩、幾盆半枯的綠植」
光線＋氛圍：「暖橙色側光，輕微逆光，35mm 顆粒感，懷舊但不沉重」

把這一段寫進場景庫，整首歌裡所有「頂樓陽台」鏡頭都會拿到這同一段，地點自然連續。

實用規則： 場景描述寫「不變的東西」（地點、佈景、光），把「會變的東西」（人物姿態、動作、情緒）留給單鏡 prompt。描述裡越是把舞台釘死，人在舞台上的表演就越自由。

3. 參考圖：可選，但能把「這一個地方」徹底焊死

文字能鎖「什麼樣的頂樓陽台」，但鎖不死「這一個頂樓陽台」。當你需要更強的連續性（比如一個地點要出現十幾次），給場景配一張參考圖：

上傳一張你想要的地點圖，或先產生一張滿意的，存進場景庫當錨點；
之後這個場景的所有鏡頭，都會把這張圖當作「地點參考」餵給生成模型，強約束「同一個地方、同樣的建築結構和環境」。

注意：場景參考圖是可選的。很多歌靠描述就夠了，圖是「需要焊死時」的加強件——這和角色參考圖「幾乎必須」是相反的優先順序。

Cinematic scene reference library

角色＋場景，怎麼在同一張圖裡協同鎖定

真正的難點在這：當一個鏡頭既要鎖臉、又要鎖地點，兩張參考圖（角色圖＋場景圖）一起餵給模型，怎麼不打架？

關鍵是告訴模型誰是誰。SunoMV 在底層把多張參考圖編號宣告給模型：

image 1 是角色「張奕」，image 2 是地點/場景「老城頂樓陽台·黃昏」（不是人物）。
保持每個人和其角色參考圖一致（同樣的臉/髮型/膚色），
保持地點和其場景參考圖一致（同樣的地方、建築、整體環境），
只改變人物的姿態和動作、取景、光線，去匹配下面的畫面描述。

這段編號宣告做了兩件關鍵的事：

把「人」和「地方」分開宣告——明確告訴模型「image 2 是地點，不是要鎖的第二張臉」，避免模型把場景裡的路人也當主角去鎖；
把「鎖什麼」和「改什麼」分開——鎖住身分和地點，只放開姿態、取景、光線。這樣同一個角色能在同一個場景裡做出不同的動作、走到不同的位置，而人和地方始終是「那個人、那個地方」。

你不需要手寫這段——在 SunoMV 鏡頭編輯器裡給鏡頭選好角色和場景，這套協同宣告會自動拼好。你要做的只是把場景庫建對、把每鏡的場景選對。

在 SunoMV 裡 3 步鎖住整首歌的場景

建場景庫：在鏡頭編輯器裡打開「場景」，按這首歌的地點建 3～5 個場景，每個寫一兩句描述（地點＋時段＋佈景＋光）。需要焊死的地點再傳張參考圖。
逐鏡掛場景：每個鏡頭從場景庫裡單選一個場景。主歌全在「臥室」，副歌切「頂樓陽台」，bridge 回「臥室」——回到的是同一條臥室，不是新的。
產生／重新產生：產生時，每鏡的場景描述會自動拼進畫面 prompt（鎖地點），可選的場景參考圖會當作額外參考圖餵進去（焊死佈景）。換了場景，快取自動失效、重新出圖，不會拿舊地點糊弄你。

整個過程你只在「建庫」和「選場景」上花心思，鎖定的髒活由編輯器在背後幹。

疑難排解

Q：一首歌場景超過 5 個怎麼辦？ 先問自己是不是真的需要那麼多。大多數 MV 在 3～4 個場景之間輪換反而更有「這是一個完整世界」的統一感；場景太多本身就是「拼貼感」的來源。真需要更多，把相近的合併（「白天客廳」「夜晚客廳」可以是同一描述＋不同光線提示，而不是兩條獨立場景）。

Q：同一個地點要白天和夜晚兩個版本？ 建成兩條獨立場景：「客廳·白天」和「客廳·夜晚」，描述裡分別鎖光線，必要時各配一張參考圖。這樣每鏡選「客廳·夜晚」拿到的永遠是夜晚那一套，不會和白天串掉。

Q：室內轉室外的相鄰鏡頭老是接不上？ 場景鎖的是「單鏡地點」，鏡頭之間的連續性靠分鏡順序和轉場設計。把同場景的鏡頭排在一起、轉場放在場景切換的邊界上，比硬讓模型「猜」連續性可靠得多。詳見逐鏡分鏡方法。

常見問題（FAQ）

Suno 能直接做出場景一致的音樂影片嗎？ Suno 負責出歌，不負責分鏡和畫面一致性。把 Suno 歌做成場景不漂的 MV，需要在歌之外加一層分鏡＋角色＋場景的控制——這正是 SunoMV 這類工具做的事。完整流程見從 Suno 歌曲到成片的分鏡工作流。

場景一定要傳參考圖嗎？ 不一定。場景的主軸是文字描述，參考圖是「需要把某個地點徹底焊死」時的可選加強件。先用描述，漂得厲害再加圖。

角色一致性和場景一致性，先做哪個？ 先角色。臉崩觀眾一眼看穿，地點漂是「隱性扣分」。臉鎖住之後，再用本文的方法補上場景這一半。

把另一半也鎖上

角色一致性讓你的 MV「不像換了演員」，場景一致性讓它「不像換了片場」。兩個一起鎖住，你的 AI 音樂影片才真正像一部「在一個世界裡拍出來的片子」，而不是一堆好看但各自為政的單格拼貼。

打開 SunoMV 的鏡頭編輯器，先建一個 3 個場景的小庫，掛到你最不滿意的那幾鏡，重新產生一次——你會立刻看到「同一個地方」帶來的連貫感。