結論を一言で

顔は直したのに、場面はまだブレている——これがAI音楽ビデオが「ニセモノっぽく」見えるもう半分の原因で、しかもほとんどの人はその存在に気づいてすらいません。主役の顔を固定しても、解決できるのは問題の半分だけ。同じ場所がショットをまたいで「同じ場所」に見えること、これが残りの半分です。本記事では、ショットごとにシーンを固定する方法と、SunoMV ストーリー型音楽ビデオジェネレーターにあるシーンライブラリ機能を紹介します。

読み終えると、次のことが分かります。なぜ「リビング」が3ショット目と9ショット目でまったく別のリビングになってしまうのか。シーン一貫性とキャラクター一貫性をなぜ分けて扱わなければならないのか。そして、一文のシーン説明（＋任意で参照画像1枚）で、曲全体の場所をどう釘付けにするか。

AI music video scene consistency

顔は直したのに、場面が「ブレ」はじめる

まずはおめでとうございます——もしあなたがすでに参照画像で主役の顔を固定しているなら、AI音楽ビデオで最も難しい関門はすでに越えています（まだなら、先に AI音楽ビデオでキャラクターを崩さないガイドを読んでください）。

でも、すぐに2つ目の落とし穴に気づきます。顔は合っているのに、場所が合っていない。

典型的な症状はこうです。

症状	現れ方	なぜ起きるのか
同じ名前で別の場所	Aメロの「寝室」とサビの「寝室」が別々の部屋になる	ショットごとに独立生成され、モデルが毎回「寝室」の見た目をゼロから想像し直す
時間帯が飛ぶ	このショットは窓の外が昼、次は夜、その次はまた昼	プロンプトが光・時間帯を固定しておらず、モデルが自由に解釈する
背景のブレ	ソファが布地から革に変わり、壁色がアイボリーからグレーブルーに変わる	「家具・壁・素材」を縛るものが何もない
屋内外の不整合	サビは「屋上」なのに、トランジション動画では屋上が廊下につながる	隣り合うショットがそれぞれ勝手に生成され、場所がつながらない

人間の脳がシーンの一貫性に対して持つ感度は、たしかに顔に対する感度より低い——でも、低い＝ゼロ、ではありません。観客はどこがおかしいか言葉にできなくても、無意識に「この映像は寄せ集めだ」と感じ取ります。1本のMVの「質感」は、半分が顔の崩れなさから来て、残りの半分がここ、つまり場所が同じ場所であることから来るのです。

シーン一貫性 ≠ キャラクター一貫性：別物の2つ、別物の2つの「鍵」

多くの人はシーンを「キャラクターの背景」としてついでに処理しますが、これは間違いです。生成モデルから見ると、キャラクターとシーンはまったく異なる2種類の制約です。

観点	キャラクター（Character）	シーン（Scene）
本質	アイデンティティ：固定するのは「これは誰か」——顔・髪型・肌の色	環境：固定するのは「これはどこか」——場所・背景・構図のベース
1ショットに何人/何個	複数あり得る（主役＋脇役が同じフレームに）	通常は1つだけ（1ショットは1つの場所で起きる）
主な担い手	参照画像がほぼ必須（渡さないと顔が変わる）	説明文が主役、参照画像は任意——「ネオンの雨の夜の屋上」という一文で足りることが多い
変わるもの	人が動く（姿勢・表情・立ち位置）	場所は動かない（人がシーンの中で動き、シーンは舞台）

これを覚えておいてください。キャラクターの鍵は「人を入れ替えるな」、シーンの鍵は「場所を入れ替えるな、変えていいのは人が場所の中でする動作だけ」。 2つの鍵は言い回しも、担い手も、使い方も違います。一緒くたに処理すると、必ずどちらかがおろそかになります。

シーン固定の3点セット

1. ショットごとに書くのではなく「シーンライブラリ」を作る

最大の間違いはこれです——各ショットのプロンプトの中でその都度シーンを書く。3ショット目に「リビングで」、9ショット目に「リビングの中で」——2つの文が違えば、モデルは2つのリビングを返してきます。

正しいやり方は、シーンを抜き出して、使い回すことです。1曲に出てくる固定シーンはたいてい3〜5個（リビング、街、屋上、車内……）。一度作ったら、そのシーンを使うすべてのショットが同じ1条目を指すようにします。同じ1条目＝同じ説明文＋同じ参照画像＝モデルが毎回受け取る制約が完全に一致＝場所がブレない。

SunoMVが「シーン」をショット内のフィールドではなく**独立したライブラリ（最大5個）**として作っているのは、まさにこのためです——使い回しを強制し、その使い回しこそが一貫性の源になります。

2. 説明文が主役：一、二文で場所・時間帯・背景を釘付けにする

シーンの主軸は文章による説明であって、画像ではありません。良いシーン説明は次の3つを固定すべきです。

場所＋時間帯：「旧市街の最上階の屋上、夕暮れ、スカイラインに沈む夕日」
背景のキーオブジェクト：「錆びた貯水タンク、物干しロープ、半分枯れた鉢植えがいくつか」
光＋雰囲気：「暖かいオレンジのサイド光、軽い逆光、35mmの粒状感、ノスタルジックだが重すぎない」

このひと段落をシーンライブラリに書き込めば、曲全体のすべての「屋上」ショットがこの同じ段落を受け取り、場所は自然につながります。

実用ルール： シーン説明には「変わらないもの」（場所・背景・光）を書き、「変わるもの」（人物の姿勢・動作・感情）は単一ショットのプロンプトに残す。説明で舞台を釘付けにするほど、人が舞台の上で見せる演技は自由になります。

3. 参照画像：任意、でも「この一つの場所」を完全に溶接できる

文章は「どんな屋上か」は固定できても、「この一つの屋上」までは固定しきれません。より強い連続性が必要なとき（たとえば、ある場所が十数回も登場するとき）は、シーンに参照画像を1枚つけます。

欲しい場所の画像を1枚アップロードするか、まず満足のいく1枚を生成して、シーンライブラリにアンカーとして保存します。
以降、このシーンのすべてのショットは、この画像を「場所の参照」として生成モデルに渡し、「同じ場所、同じ建築構造と環境」を強く制約します。

注意：シーン参照画像は任意です。多くの曲は説明文だけで十分で、画像は「溶接が必要なとき」の補強パーツです——これはキャラクター参照画像が「ほぼ必須」なのとは逆の優先順位です。

Cinematic scene reference library

キャラクター＋シーンを、同じ1枚の中でどう協調して固定するか

本当の難所はここです。1つのショットで顔も場所も固定したいとき、2枚の参照画像（キャラクター画像＋シーン画像）を一緒にモデルに渡して、どうケンカさせないか。

カギはどれが何かをモデルに伝えることです。SunoMVは内部で、複数の参照画像に番号を振ってモデルに宣言します。

image 1 はキャラクター「張奕」、image 2 は場所/シーン「旧市街の屋上・夕暮れ」（人物ではない）。
各人物はそのキャラクター参照画像と一致させる（同じ顔/髪型/肌の色）、
場所はそのシーン参照画像と一致させる（同じ場所、建築、全体の環境）、
変えるのは人物の姿勢と動作、フレーミング、光だけにして、下の画面説明に合わせる。

この番号宣言は、2つの重要なことをしています。

「人」と「場所」を分けて宣言する——「image 2 は場所であって、固定すべき2枚目の顔ではない」とモデルに明示し、シーンの中にいる通行人まで主役として固定してしまうのを防ぎます。
「何を固定するか」と「何を変えるか」を分ける——アイデンティティと場所を固定し、姿勢・フレーミング・光だけを解放します。こうすることで、同じキャラクターが同じシーンの中で違う動作をし、違う位置に移動できる一方で、人と場所はつねに「その人、その場所」のままでいられます。

このひと段落を手書きする必要はありません——SunoMV ショットエディターでショットにキャラクターとシーンを選べば、この協調宣言は自動で組み立てられます。あなたがすべきことは、シーンライブラリを正しく作り、各ショットのシーンを正しく選ぶことだけです。

SunoMVで3ステップ、曲全体のシーンを固定する

シーンライブラリを作る：ショットエディターで「シーン」を開き、この曲の場所に合わせて3〜5個のシーンを作り、それぞれ一、二文の説明（場所＋時間帯＋背景＋光）を書きます。溶接したい場所には参照画像も追加します。
ショットごとにシーンを割り当てる：各ショットでシーンライブラリから1つを単一選択します。Aメロは全部「寝室」、サビは「屋上」に切り替え、ブリッジで「寝室」に戻る——戻る先は同じ寝室の条目であって、新しい寝室ではありません。
生成 / 再生成：生成時、各ショットのシーン説明が自動で画面プロンプトに組み込まれ（場所を固定）、任意のシーン参照画像が追加の参照画像として渡されます（背景を溶接）。シーンを変えると、キャッシュが自動で無効になって出力し直され、古い場所でごまかしません。

このプロセスであなたが頭を使うのは「ライブラリを作る」と「シーンを選ぶ」だけ。固定の地味な作業はエディターが裏でやってくれます。

トラブルシューティング

Q：1曲でシーンが5個を超えたら？ まず、本当にそんなに必要か自問してください。たいていのMVは3〜4個のシーンを循環させるほうが、かえって「これは1つの完結した世界だ」という統一感が出ます。シーンが多すぎること自体が「寄せ集め感」の源です。本当にもっと必要なら、近いものを統合します（「昼のリビング」「夜のリビング」は、2つの独立シーンではなく、同じ説明＋異なる光のヒントにできます）。

Q：同じ場所で昼と夜の2バージョンが欲しい？ 2つの独立シーンとして作ります：「リビング・昼」と「リビング・夜」。説明文でそれぞれ光を固定し、必要なら各自に参照画像を1枚つけます。こうすれば、各ショットで「リビング・夜」を選ぶと常に夜のセットが返り、昼と混ざりません。

Q：屋内から屋外への隣り合うショットがいつもつながらない？ シーンが固定するのは「単一ショットの場所」で、ショット間の連続性はショットの並び順とトランジション設計で作ります。同じシーンのショットを並べて配置し、トランジションをシーン切り替えの境界に置くほうが、モデルに連続性を「推測」させるより確実です。詳しくはショットごとのストーリーボード術。

よくある質問（FAQ）

Sunoだけでシーンが一貫した音楽ビデオを作れますか？ Sunoは曲を出すのが役割で、ストーリーボードや画面の一貫性は担当しません。Sunoの曲を場所がブレないMVにするには、曲の外側にストーリーボード＋キャラクター＋シーンのコントロール層を一枚足す必要があります——これこそSunoMVのようなツールがやることです。全体の流れは Suno曲から完成映像までのストーリーボード・ワークフローを参照してください。

シーンには必ず参照画像が必要ですか？ 必ずではありません。シーンの主軸は文章による説明で、参照画像は「ある場所を完全に溶接したい」ときの任意の補強パーツです。まず説明文で試し、ブレがひどければ画像を足します。

キャラクター一貫性とシーン一貫性、どちらを先に？ 先にキャラクターです。顔の崩れは観客が一目で見抜きますが、場所のブレは「目に見えない減点」です。顔を固定したあと、本記事の方法でシーンという残り半分を埋めましょう。

もう半分も固定する

キャラクター一貫性はあなたのMVを「役者を入れ替えたみたいに見えない」ものにし、シーン一貫性はそれを「撮影所を変えたみたいに見えない」ものにします。両方を一緒に固定して初めて、あなたのAI音楽ビデオは「一つの世界の中で撮られた映像」のように見え、きれいだけれどバラバラな単フレームの寄せ集めではなくなります。

SunoMV のショットエディターを開いて、まずは3シーンの小さなライブラリを作り、いちばん不満なショットに割り当てて、もう一度生成してみてください——「場所が同じ」がもたらす連続感が、すぐに見えるはずです。