一句话先说结论

你修好了脸，但场景还在漂——这是 AI 音乐视频「看着假」的另一半根源，而且大多数人根本没意识到。 锁住主角的脸只解决了一半问题；让同一个地点跨镜头看着是「同一个地方」，是另一半。这篇给你一套逐镜锁场景的方法，以及 SunoMV 故事化音乐视频生成器里现成的场景库工具。

读完你会知道：为什么「客厅」在第 3 镜和第 9 镜会变成两个完全不同的客厅；场景一致性和角色一致性为什么必须分开处理；以及怎么用一句场景描述（外加一张可选的参考图）把整首歌的地点钉死。

AI music video scene consistency

你修好了脸，场景却开始「漂」

先恭喜你——如果你已经在用参考图锁主角的脸，你已经跨过了 AI 音乐视频最难的关卡（如果还没，先读 AI 音乐视频角色不崩坏指南）。

但很快你会发现第二个坑：脸对了，地方不对了。

典型症状：

症状	表现	为什么发生
同名异地	主歌的「卧室」和副歌的「卧室」是两个房间	每镜独立生成，模型每次重新「想象」卧室长什么样
时段乱跳	这镜窗外白天，下镜窗外黑夜，下下镜又白天	prompt 没锁光线/时间，模型自由发挥
布景漂移	沙发从布艺变皮质、墙色从米白变灰蓝	没有任何东西约束「家具/墙面/材质」
室内外穿帮	副歌在「天台」，转场视频却把天台接到了走廊	相邻镜头各自为政，地点不连续

人脑对场景一致性的敏感度确实低于对人脸的敏感度——但低不等于零。观众不一定说得出哪里不对，却会下意识觉得「这片子是拼的」。一支 MV 的「质感」，一半来自脸不崩，另一半就来自这里：地方是同一个地方。

场景一致性 ≠ 角色一致性：两件事，两套锁

很多人把场景当成「角色的背景」顺手处理，这是错的。角色和场景在生成模型眼里是两类完全不同的约束：

维度	角色（Character）	场景（Scene）
本质	身份：锁的是「这是谁」——脸、发型、肤色	环境：锁的是「这是哪」——地点、布景、构图基底
一个镜头里有几个	可能多个（主角 + 配角同框）	通常只有一个（一镜发生在一个地方）
主要载体	参考图几乎是必须的（不传就换脸）	描述为主，参考图可选——「霓虹雨夜的天台」一句话往往就够
变化的是什么	人在动（姿态、表情、走位）	地方不动（人在场景里活动，场景是舞台）

记住这条：角色锁的是「不许换人」，场景锁的是「不许换地方，只许换人在地方里的动作」。 两套锁的措辞、载体、用法都不一样，混在一起处理必然顾此失彼。

场景锁定三件套

1. 建一个「场景库」，而不是每镜临时写

最大的错误是：每个镜头的 prompt 里临时描述场景。第 3 镜写「在客厅」，第 9 镜写「在客厅里」——两句话不一样，模型给你两个客厅。

正确做法是把场景抽出来、复用：一首歌通常就 3～5 个固定场景（客厅、街道、天台、车里……），建一次，每个用到这个场景的镜头都指向同一条。同一条 = 同一段描述 + 同一张参考图 = 模型每次拿到的约束完全一致 = 地点不漂。

这正是 SunoMV 把「场景」做成**一个独立库（最多 5 个）**而不是镜头内联字段的原因——它逼你复用，而复用就是一致性的来源。

2. 描述为主：一两句话钉死地点、时段、布景

场景的主轴是文字描述，不是图。一句好的场景描述应该锁住三件事：

地点 + 时段：「老城区顶楼天台，黄昏，夕阳压在天际线上」
布景关键物：「生锈的水箱、晾衣绳、几盆半枯的绿植」
光线 + 氛围：「暖橙色侧光，轻微逆光，35mm 颗粒感，怀旧但不沉重」

把这一段写进场景库，整首歌里所有「天台」镜头都会拿到这同一段，地点自然连续。

实用规则： 场景描述写「不变的东西」（地点、布景、光），把「会变的东西」（人物姿态、动作、情绪）留给单镜 prompt。描述里越是把舞台钉死，人在舞台上的表演就越自由。

3. 参考图：可选，但能把「这一个地方」彻底焊死

文字能锁「什么样的天台」，但锁不死「这一个天台」。当你需要更强的连续性（比如一个地点要出现十几次），给场景配一张参考图：

上传一张你想要的地点图，或先生成一张满意的，存进场景库当锚点；
之后这个场景的所有镜头，都会把这张图作为「地点参考」喂给生成模型，强约束「同一个地方、同样的建筑结构和环境」。

注意：场景参考图是可选的。很多歌靠描述就够了，图是「需要焊死时」的加强件——这和角色参考图「几乎必须」是相反的优先级。

Cinematic scene reference library

角色 + 场景，怎么在同一张图里协同锁定

真正的难点在这：当一个镜头既要锁脸、又要锁地点，两张参考图（角色图 + 场景图）一起喂给模型，怎么不打架？

关键是告诉模型谁是谁。SunoMV 在底层把多张参考图编号声明给模型：

image 1 是角色「张奕」，image 2 是地点/场景「老城天台·黄昏」（不是人物）。
保持每个人和其角色参考图一致（同样的脸/发型/肤色），
保持地点和其场景参考图一致（同样的地方、建筑、整体环境），
只改变人物的姿态和动作、取景、光线，去匹配下面的画面描述。

这段编号声明做了两件关键的事：

把「人」和「地方」分开声明——明确告诉模型「image 2 是地点，不是要锁的第二张脸」，避免模型把场景里的路人也当主角去锁；
把「锁什么」和「改什么」分开——锁住身份和地点，只放开姿态、取景、光线。这样同一个角色能在同一个场景里做出不同的动作、走到不同的位置，而人和地方始终是「那个人、那个地方」。

你不需要手写这段——在 SunoMV 镜头编辑器里给镜头选好角色和场景，这套协同声明是自动拼的。你要做的只是把场景库建对、把每镜的场景选对。

在 SunoMV 里 3 步锁住整首歌的场景

建场景库：在镜头编辑器里打开「场景」，按这首歌的地点建 3～5 个场景，每个写一两句描述（地点 + 时段 + 布景 + 光）。需要焊死的地点再传张参考图。
逐镜挂场景：每个镜头从场景库里单选一个场景。主歌全在「卧室」，副歌切「天台」，bridge 回「卧室」——回到的是同一条卧室，不是新的。
生成 / 重生成：生成时，每镜的场景描述会自动拼进画面 prompt（锁地点），可选的场景参考图会作为额外参考图喂进去（焊死布景）。换了场景，缓存自动失效、重新出图，不会拿旧地点糊弄你。

整个过程你只在「建库」和「选场景」上花心思，锁定的脏活由编辑器在背后干。

疑难处理

Q：一首歌场景超过 5 个怎么办？ 先问自己是不是真的需要那么多。大多数 MV 在 3～4 个场景之间轮换反而更有「这是一个完整世界」的统一感；场景太多本身就是「拼贴感」的来源。真需要更多，把相近的合并（「白天客厅」「夜晚客厅」可以是同一描述 + 不同光线提示，而不是两条独立场景）。

Q：同一个地点要白天和夜晚两个版本？ 建成两条独立场景：「客厅·白天」和「客厅·夜晚」，描述里分别锁光线，必要时各配一张参考图。这样每镜选「客厅·夜晚」拿到的永远是夜晚那一套，不会和白天串。

Q：室内转室外的相邻镜头老是接不上？ 场景锁的是「单镜地点」，镜头之间的连续性靠分镜顺序和转场设计。把同场景的镜头排在一起、转场放在场景切换的边界上，比硬让模型「猜」连续性可靠得多。详见逐镜分镜方法。

常见问题（FAQ）

Suno 能直接做出场景一致的音乐视频吗？ Suno 负责出歌，不负责分镜和画面一致性。把 Suno 歌做成场景不漂的 MV，需要在歌之外加一层分镜 + 角色 + 场景的控制——这正是 SunoMV 这类工具做的事。完整流程见从 Suno 歌曲到成片的分镜工作流。

场景一定要传参考图吗？ 不一定。场景的主轴是文字描述，参考图是「需要把某个地点彻底焊死」时的可选加强件。先用描述，漂得厉害再加图。

角色一致性和场景一致性，先做哪个？ 先角色。脸崩观众一眼看穿，地点漂是「隐性扣分」。脸锁住之后，再用本文的方法补上场景这一半。

把另一半也锁上

角色一致性让你的 MV「不像换了演员」，场景一致性让它「不像换了片场」。两个一起锁住，你的 AI 音乐视频才真正像一部「在一个世界里拍出来的片子」，而不是一堆好看但各自为政的单帧拼贴。

打开 SunoMV 的镜头编辑器，先建一个 3 个场景的小库，挂到你最不满意的那几镜，重新生成一次——你会立刻看到「同一个地方」带来的连贯感。