SunoMV
KI-Musikvideo: Szenen-Konsistenz Schritt für Schritt - Ort und Set pro Shot festzurren (die andere Hälfte der Charakterkonsistenz)
Methodik

KI-Musikvideo: Szenen-Konsistenz Schritt für Schritt - Ort und Set pro Shot festzurren (die andere Hälfte der Charakterkonsistenz)

Veröffentlicht · Von SunoMV Team

Das Fazit in einem Satz

Du hast das Gesicht repariert, aber die Szene driftet noch - das ist die andere Wurzel, warum KI-Musikvideos “fake” aussehen, und den meisten ist sie überhaupt nicht bewusst. Das Gesicht deiner Hauptfigur zu fixieren löst nur die Hälfte des Problems; dafür zu sorgen, dass derselbe Ort über alle Shots hinweg wie “derselbe Ort” aussieht, ist die andere Hälfte. Dieser Artikel gibt dir eine Methode, um die Szene Shot für Shot festzuzurren - plus das fertige Szenenbibliothek-Tool im SunoMV Story-Musikvideo-Generator.

Nach dem Lesen weißt du: warum aus dem “Wohnzimmer” in Shot 3 und Shot 9 zwei völlig verschiedene Wohnzimmer werden; warum Szenen-Konsistenz und Charakterkonsistenz getrennt behandelt werden müssen; und wie du mit einem Satz Szenenbeschreibung (plus einem optionalen Referenzbild) den Schauplatz für das ganze Lied festnagelst.

AI music video scene consistency

Du hast das Gesicht repariert, jetzt fängt die Szene an zu “driften”

Erstmal Glückwunsch - wenn du bereits mit Referenzbildern das Gesicht deiner Hauptfigur fixierst, hast du die schwerste Hürde im KI-Musikvideo schon genommen (falls noch nicht, lies zuerst den Leitfaden für Charakterkonsistenz im KI-Musikvideo).

Aber schnell stößt du auf die zweite Falle: Das Gesicht stimmt, der Ort nicht mehr.

Typische Symptome:

Symptom Erscheinung Warum es passiert
Gleicher Name, anderer Ort Das “Schlafzimmer” der Strophe und das “Schlafzimmer” des Refrains sind zwei verschiedene Räume Jeder Shot wird einzeln generiert; das Modell “stellt sich” jedes Mal neu vor, wie das Schlafzimmer aussieht
Tageszeit springt In diesem Shot ist draußen Tag, im nächsten Nacht, im übernächsten wieder Tag Der Prompt sperrt Licht/Tageszeit nicht, das Modell macht, was es will
Set driftet Die Couch wechselt von Stoff zu Leder, die Wandfarbe von Cremeweiß zu Graublau Nichts schränkt “Möbel/Wand/Material” ein
Innen-/Außen-Bruch Der Refrain spielt auf der “Dachterrasse”, aber das Übergangsvideo hängt die Terrasse an einen Flur Benachbarte Shots agieren jeder für sich, der Ort ist nicht durchgängig

Das menschliche Gehirn ist bei Szenen-Konsistenz tatsächlich weniger empfindlich als bei Gesichtern - aber weniger heißt nicht null. Das Publikum kann vielleicht nicht benennen, was nicht stimmt, spürt aber unterbewusst “dieses Video ist zusammengestückelt”. Die “Wertigkeit” eines Musikvideos kommt zur Hälfte daher, dass das Gesicht nicht zerfällt, und zur anderen Hälfte genau von hier: Der Ort ist derselbe Ort.

Szenen-Konsistenz ist nicht Charakterkonsistenz: zwei Dinge, zwei Schlösser

Viele behandeln die Szene als “Hintergrund der Figur” und erledigen sie nebenbei - das ist falsch. Charakter und Szene sind in den Augen des Generierungsmodells zwei völlig verschiedene Arten von Einschränkungen:

Dimension Charakter (Character) Szene (Scene)
Wesen Identität: gesperrt wird “wer das ist” - Gesicht, Frisur, Hautton Umgebung: gesperrt wird “wo das ist” - Ort, Set, kompositorische Grundlage
Wie viele pro Shot Möglicherweise mehrere (Hauptfigur + Nebenfigur im selben Bild) Üblicherweise nur eine (ein Shot spielt an einem Ort)
Hauptträger Referenzbild ist fast zwingend (ohne Bild wechselt das Gesicht) Beschreibung zuerst, Referenzbild optional - “Dachterrasse in Neon-Regennacht” reicht als Satz oft schon
Was sich ändert Die Person bewegt sich (Pose, Mimik, Positionswechsel) Der Ort bleibt fest (die Person agiert in der Szene, die Szene ist die Bühne)

Merke dir diesen Satz: Der Charakter-Lock sagt “kein Personenwechsel”, der Szenen-Lock sagt “kein Ortswechsel, nur die Aktion der Person am Ort darf wechseln”. Wortwahl, Träger und Anwendung der beiden Schlösser sind verschieden; vermischt man sie, geht zwangsläufig das eine auf Kosten des anderen.

Das Szenen-Lock-Dreierset

1. Bau eine “Szenenbibliothek”, statt jeden Shot ad hoc zu beschreiben

Der größte Fehler: in jedem Shot-Prompt die Szene spontan zu beschreiben. Shot 3 schreibt “im Wohnzimmer”, Shot 9 schreibt “innerhalb des Wohnzimmers” - zwei verschiedene Sätze, das Modell gibt dir zwei verschiedene Wohnzimmer.

Richtig ist, die Szene herauszuziehen und wiederzuverwenden: Ein Lied hat meist nur 3 bis 5 feste Szenen (Wohnzimmer, Straße, Dachterrasse, im Auto …), baust du einmal, und jeder Shot, der diese Szene nutzt, zeigt auf denselben Eintrag. Derselbe Eintrag = dieselbe Beschreibung + dasselbe Referenzbild = die Einschränkung, die das Modell jedes Mal bekommt, ist exakt gleich = der Ort driftet nicht.

Genau deshalb macht SunoMV die “Szene” zu einer eigenständigen Bibliothek (maximal 5) statt zu einem Shot-internen Feld - es zwingt dich zur Wiederverwendung, und Wiederverwendung ist die Quelle der Konsistenz.

2. Beschreibung zuerst: ein, zwei Sätze nageln Ort, Tageszeit und Set fest

Die Hauptachse der Szene ist die Textbeschreibung, nicht das Bild. Eine gute Szenenbeschreibung sollte drei Dinge sperren:

  • Ort + Tageszeit: “Dachterrasse über der Altstadt, Abenddämmerung, die Sonne drückt auf die Skyline”
  • Schlüsselobjekte des Sets: “rostiger Wassertank, Wäscheleine, ein paar halb verdorrte Topfpflanzen”
  • Licht + Atmosphäre: “warmes orangenes Seitenlicht, leichtes Gegenlicht, 35-mm-Korn, nostalgisch, aber nicht schwer”

Schreib diesen Absatz in die Szenenbibliothek, und alle “Dachterrassen”-Shots des ganzen Lieds bekommen genau diesen Absatz - der Ort wird von selbst durchgängig.

Praktische Regel: Die Szenenbeschreibung schreibt “das, was unveränderlich ist” (Ort, Set, Licht) und überlässt “das, was sich ändert” (Pose, Aktion, Emotion der Figur) dem einzelnen Shot-Prompt. Je fester die Beschreibung die Bühne nagelt, desto freier wird die Darbietung der Person auf dieser Bühne.

3. Referenzbild: optional, aber es schweißt “diesen einen Ort” endgültig fest

Text kann sperren “was für eine Dachterrasse”, aber nicht “diese eine Dachterrasse”. Wenn du stärkere Durchgängigkeit brauchst (etwa wenn ein Ort über ein Dutzend Mal auftauchen soll), gib der Szene ein Referenzbild:

  • Lade ein Bild des gewünschten Ortes hoch oder generiere zuerst eines, das dir gefällt, und leg es als Anker in die Szenenbibliothek;
  • danach bekommen alle Shots dieser Szene dieses Bild als “Ortsreferenz” ins Generierungsmodell - das erzwingt stark “derselbe Ort, dieselbe Gebäudestruktur und Umgebung”.

Beachte: Das Szenen-Referenzbild ist optional. Viele Lieder kommen mit der Beschreibung aus; das Bild ist das Verstärkungsteil für den Fall, “wenn es festgeschweißt werden muss” - das ist die umgekehrte Priorität zum Charakter-Referenzbild, das “fast zwingend” ist.

Cinematic scene reference library

Charakter + Szene: wie man sie im selben Bild gemeinsam sperrt

Hier liegt die eigentliche Schwierigkeit: Wenn ein Shot sowohl das Gesicht als auch den Ort sperren soll, werden zwei Referenzbilder (Charakterbild + Szenenbild) gemeinsam ins Modell gegeben - wie verhindert man, dass sie sich in die Quere kommen?

Der Schlüssel ist, dem Modell zu sagen, wer wer ist. SunoMV deklariert dem Modell im Hintergrund die mehreren Referenzbilder nummeriert:

image 1 ist die Figur "Zhang Yi", image 2 ist der Ort/die Szene "Altstadt-Dachterrasse, Abenddämmerung" (keine Person).
Halte jede Person konsistent mit ihrem Charakter-Referenzbild (gleiches Gesicht/Frisur/Hautton),
halte den Ort konsistent mit seinem Szenen-Referenzbild (gleicher Ort, Gebäude, gesamte Umgebung),
ändere nur Pose und Aktion der Person, den Bildausschnitt, das Licht, um zur folgenden Bildbeschreibung zu passen.

Diese nummerierte Deklaration leistet zwei entscheidende Dinge:

  1. Sie deklariert “Person” und “Ort” getrennt - sie sagt dem Modell klar “image 2 ist der Ort, nicht ein zweites zu sperrendes Gesicht”, und verhindert, dass das Modell auch Passanten in der Szene als Hauptfigur zu sperren versucht;
  2. Sie trennt “was zu sperren” von “was zu ändern” - sperrt Identität und Ort, gibt nur Pose, Bildausschnitt und Licht frei. So kann dieselbe Figur in derselben Szene verschiedene Aktionen ausführen und an verschiedene Positionen gehen, während Person und Ort durchgehend “diese Person, dieser Ort” bleiben.

Du musst diesen Block nicht selbst schreiben - im SunoMV Shot-Editor wählst du pro Shot Charakter und Szene aus, und diese gemeinsame Deklaration wird automatisch zusammengesetzt. Deine einzige Aufgabe ist es, die Szenenbibliothek richtig aufzubauen und pro Shot die richtige Szene auszuwählen.

In 3 Schritten die Szene des ganzen Lieds in SunoMV festzurren

  1. Szenenbibliothek bauen: Öffne im Shot-Editor die “Szene”, lege nach den Orten dieses Lieds 3 bis 5 Szenen an, schreib zu jeder ein, zwei Sätze Beschreibung (Ort + Tageszeit + Set + Licht). Für Orte, die festgeschweißt werden müssen, lade zusätzlich ein Referenzbild hoch.
  2. Szene pro Shot zuweisen: Wähle für jeden Shot aus der Szenenbibliothek eine einzelne Szene aus. Die Strophe ganz im “Schlafzimmer”, der Refrain wechselt zur “Dachterrasse”, die Bridge zurück zum “Schlafzimmer” - du kehrst zu demselben Schlafzimmer-Eintrag zurück, nicht zu einem neuen.
  3. Generieren / Neu generieren: Beim Generieren wird die Szenenbeschreibung jedes Shots automatisch in den Bild-Prompt eingefügt (sperrt den Ort), das optionale Szenen-Referenzbild wird als zusätzliche Referenz mitgegeben (schweißt das Set fest). Wechselst du die Szene, wird der Cache automatisch ungültig und neu generiert - es schummelt dir nicht den alten Ort unter.

Im ganzen Prozess kümmerst du dich nur ums “Bauen der Bibliothek” und “Auswählen der Szene”, die Drecksarbeit des Sperrens erledigt der Editor im Hintergrund.

Knifflige Fälle

F: Was, wenn ein Lied mehr als 5 Szenen braucht? Frag dich zuerst, ob du wirklich so viele brauchst. Die meisten Musikvideos wirken einheitlicher als “eine vollständige Welt”, wenn sie zwischen 3 bis 4 Szenen wechseln; zu viele Szenen sind selbst eine Quelle des “Collage-Gefühls”. Wenn du wirklich mehr brauchst, fasse Ähnliches zusammen (“Wohnzimmer am Tag” und “Wohnzimmer in der Nacht” können dieselbe Beschreibung + ein anderer Licht-Hinweis sein, statt zwei eigenständige Szenen).

F: Ich brauche denselben Ort in einer Tag- und einer Nachtversion? Bau zwei eigenständige Szenen: “Wohnzimmer, Tag” und “Wohnzimmer, Nacht”, sperr in der Beschreibung jeweils das Licht, gib bei Bedarf jeder ein Referenzbild. So bekommst du bei “Wohnzimmer, Nacht” pro Shot immer die Nacht-Variante, ohne dass sie mit dem Tag durcheinandergerät.

F: Benachbarte Shots vom Innen- zum Außenraum passen nie zusammen? Der Szenen-Lock sperrt den “Ort eines einzelnen Shots”; die Durchgängigkeit zwischen Shots kommt aus der Storyboard-Reihenfolge und dem Übergangs-Design. Shots derselben Szene zusammen anzuordnen und Übergänge an die Grenze des Szenenwechsels zu setzen ist zuverlässiger, als das Modell die Durchgängigkeit “raten” zu lassen. Mehr dazu in der Storyboard-Methode Shot für Shot.

Häufige Fragen (FAQ)

Kann Suno direkt szenenkonsistente Musikvideos erstellen? Suno ist fürs Erstellen der Songs zuständig, nicht für Storyboard und Bildkonsistenz. Um einen Suno-Song zu einem Musikvideo zu machen, dessen Szene nicht driftet, braucht es über dem Song eine zusätzliche Steuerungsschicht aus Storyboard + Charakter + Szene - genau das tun Tools wie SunoMV. Den kompletten Ablauf findest du im Storyboard-Workflow vom Suno-Song zum fertigen Video.

Braucht eine Szene zwingend ein Referenzbild? Nicht zwingend. Die Hauptachse der Szene ist die Textbeschreibung, das Referenzbild ist ein optionales Verstärkungsteil für den Fall, “wenn ein bestimmter Ort endgültig festgeschweißt werden muss”. Nutze zuerst die Beschreibung, und füge ein Bild hinzu, wenn es stark driftet.

Charakterkonsistenz oder Szenen-Konsistenz - was zuerst? Erst den Charakter. Ein zerfallendes Gesicht durchschaut das Publikum auf einen Blick, ein driftender Ort ist ein “verstecktes Minus”. Hast du das Gesicht gesperrt, ergänzt du mit der Methode dieses Artikels die andere Hälfte: die Szene.

Sperr auch die andere Hälfte

Charakterkonsistenz sorgt dafür, dass dein Musikvideo nicht “wie mit ausgetauschten Schauspielern” wirkt, Szenen-Konsistenz dafür, dass es nicht “wie mit ausgetauschtem Drehort” wirkt. Beide gemeinsam gesperrt, wirkt dein KI-Musikvideo erst wirklich wie ein Film, der “in einer einzigen Welt gedreht” wurde, und nicht wie eine Ansammlung hübscher, aber zusammenhangloser Einzelbilder.

Öffne den Shot-Editor von SunoMV, bau zuerst eine kleine Bibliothek mit 3 Szenen, weise sie den Shots zu, mit denen du am unzufriedensten bist, und generiere einmal neu - du wirst die Geschlossenheit, die “derselbe Ort” bringt, sofort sehen.