한 문장 결론부터

얼굴은 고쳤는데 장면이 아직 흔들립니다. 이게 AI 뮤직비디오가 “어딘가 가짜 같은” 나머지 절반의 원인이고, 대부분 이걸 아예 인식하지 못합니다. 주인공의 얼굴을 고정하는 것은 문제의 절반만 해결합니다. 같은 장소가 여러 컷에 걸쳐 “같은 곳”으로 보이게 하는 것이 나머지 절반입니다. 이 글에서는 장면을 숏마다 고정하는 방법과 SunoMV 스토리형 뮤직비디오 생성기에 이미 들어 있는 장면 라이브러리 도구를 함께 소개합니다.

다 읽고 나면 알게 됩니다. 왜 “거실”이 3번째 숏과 9번째 숏에서 완전히 다른 두 거실이 되는지, 장면 일관성과 캐릭터 일관성을 왜 따로 다뤄야 하는지, 그리고 장면 설명 한두 줄(여기에 선택적으로 참조 이미지 한 장)로 곡 전체의 장소를 못 박는 법을.

AI music video scene consistency

얼굴은 고쳤는데, 장면이 “흔들리기” 시작한다

먼저 축하합니다. 이미 참조 이미지로 주인공의 얼굴을 고정하고 있다면, 당신은 AI 뮤직비디오에서 가장 어려운 관문을 이미 넘었습니다 (아직이라면 AI 뮤직비디오 캐릭터가 무너지지 않게 하는 가이드부터 읽으세요).

하지만 곧 두 번째 함정을 만납니다. 얼굴은 맞는데, 장소가 안 맞습니다.

전형적인 증상:

증상	양상	왜 생기나
이름은 같은데 다른 장소	1절의 “침실”과 후렴의 “침실”이 서로 다른 방	숏마다 따로 생성되어, 모델이 매번 침실을 새로 “상상”
시간대 점프	이 숏은 창밖이 낮, 다음 숏은 밤, 그다음 또 낮	프롬프트가 조명/시간을 안 잡아서 모델이 자유롭게 그림
세트 표류	소파가 패브릭에서 가죽으로, 벽 색이 아이보리에서 회청색으로	“가구/벽면/재질”을 제약하는 게 아무것도 없음
실내외 어긋남	후렴은 “옥상”인데 트랜지션 영상은 옥상을 복도로 이음	인접한 숏이 제각각 생성되어 장소가 끊김

사람의 뇌는 얼굴보다 장면의 일관성에 둔감한 게 사실입니다. 하지만 둔감하다는 게 무감각하다는 뜻은 아닙니다. 관객은 어디가 잘못됐는지 콕 집어 말하지 못해도, “이 영상은 짜깁기구나”라고 무의식적으로 느낍니다. 한 편의 뮤직비디오가 갖는 “질감”의 절반은 얼굴이 안 무너지는 데서, 나머지 절반은 바로 여기서 옵니다. 장소가 같은 장소라는 것.

장면 일관성 ≠ 캐릭터 일관성: 두 가지 문제, 두 가지 자물쇠

많은 사람이 장면을 “캐릭터의 배경”으로 대충 처리하는데, 이건 틀렸습니다. 캐릭터와 장면은 생성 모델 입장에서 완전히 다른 두 종류의 제약입니다:

차원	캐릭터 (Character)	장면 (Scene)
본질	정체성: 잠그는 것은 “이게 누구인가” — 얼굴, 헤어, 피부톤	환경: 잠그는 것은 “여기가 어디인가” — 장소, 세트, 구도의 바탕
한 컷에 몇 개	여럿일 수 있음 (주인공 + 조연 동시 등장)	보통 하나 (한 컷은 한 장소에서 일어남)
주요 매개	참조 이미지가 거의 필수 (안 넣으면 얼굴이 바뀜)	설명 위주, 참조 이미지는 선택 — “네온 빗속 옥상” 한 줄이면 충분할 때가 많음
변하는 것	사람이 움직임 (자세, 표정, 동선)	장소는 고정 (사람이 장소 안에서 움직이고, 장면은 무대)

이 한 줄을 기억하세요. 캐릭터는 “사람을 바꾸지 말 것”을 잠그고, 장면은 “장소를 바꾸지 말 것, 사람이 장소 안에서 하는 동작만 바꿀 것”을 잠급니다. 두 자물쇠는 표현, 매개, 사용법이 모두 다르므로, 한데 섞어 처리하면 반드시 한쪽을 놓칩니다.

장면 고정 3종 세트

1. 숏마다 즉석으로 쓰지 말고 “장면 라이브러리”를 만든다

가장 큰 실수는 숏마다 프롬프트에 장면을 즉석으로 쓰는 것입니다. 3번째 숏에 “거실에서”, 9번째 숏에 “거실 안에서”라고 쓰면, 두 문장이 다르니 모델이 두 개의 거실을 줍니다.

올바른 방법은 장면을 빼내서 재사용하는 것입니다. 한 곡에 고정 장면은 보통 3~5개입니다 (거실, 거리, 옥상, 차 안…). 한 번 만들어 두고, 이 장면을 쓰는 모든 숏이 같은 항목을 가리킵니다. 같은 항목 = 같은 설명 + 같은 참조 이미지 = 모델이 매번 받는 제약이 완전히 일치 = 장소가 안 흔들립니다.

이것이 바로 SunoMV가 “장면”을 숏 안의 인라인 필드가 아니라 **독립적인 라이브러리(최대 5개)**로 만든 이유입니다. 재사용을 강제하고, 재사용이 곧 일관성의 원천이기 때문입니다.

2. 설명 위주: 한두 줄로 장소, 시간대, 세트를 못 박는다

장면의 주축은 글 설명이지 이미지가 아닙니다. 좋은 장면 설명 한 문단은 세 가지를 잠가야 합니다:

장소 + 시간대: “구도심 옥탑 옥상, 황혼, 석양이 스카이라인에 내려앉음”
세트의 핵심 사물: “녹슨 물탱크, 빨랫줄, 반쯤 시든 화분 몇 개”
조명 + 분위기: “따뜻한 주황색 측광, 약한 역광, 35mm 입자감, 향수 어리지만 무겁지 않게”

이 한 문단을 장면 라이브러리에 써 두면, 곡 전체의 모든 “옥상” 숏이 이 똑같은 한 문단을 받아 장소가 자연스럽게 이어집니다.

실전 규칙: 장면 설명에는 “변하지 않는 것”(장소, 세트, 조명)을 쓰고, “변하는 것”(인물 자세, 동작, 감정)은 숏별 프롬프트에 맡기세요. 설명에서 무대를 못 박을수록, 그 무대 위 사람의 연기는 더 자유로워집니다.

3. 참조 이미지: 선택이지만 “바로 이 장소”를 완전히 못 박을 수 있다

글은 “어떤 옥상”을 잠글 수 있지만 “바로 이 옥상”까지는 못 잠급니다. 더 강한 연속성이 필요할 때 (예: 한 장소가 십수 번 등장해야 할 때), 장면에 참조 이미지를 한 장 붙이세요:

원하는 장소 이미지를 한 장 업로드하거나, 마음에 드는 것을 먼저 생성해서 장면 라이브러리에 앵커로 저장합니다.
이후 이 장면의 모든 숏은 이 이미지를 “장소 참조”로 생성 모델에 넣어 “같은 장소, 같은 건축 구조와 환경”을 강하게 제약합니다.

주의: 장면 참조 이미지는 선택입니다. 많은 곡은 설명만으로 충분하고, 이미지는 “못 박아야 할 때”의 보강재입니다. 이건 “거의 필수”인 캐릭터 참조 이미지와는 반대되는 우선순위입니다.

Cinematic scene reference library

캐릭터 + 장면을 한 컷 안에서 어떻게 함께 고정하나

진짜 어려운 지점은 여기입니다. 한 컷이 얼굴도 잠그고 장소도 잠가야 할 때, 두 장의 참조 이미지(캐릭터 이미지 + 장면 이미지)를 함께 넣으면 어떻게 충돌하지 않게 할까요?

핵심은 모델에게 누가 누구인지 알려주는 것입니다. SunoMV는 내부적으로 여러 참조 이미지에 번호를 매겨 모델에 선언합니다:

image 1은 캐릭터 "장이", image 2는 장소/장면 "구도심 옥상·황혼"(인물 아님)입니다.
각 인물을 그 캐릭터 참조 이미지와 일치시키고(같은 얼굴/헤어/피부톤),
장소를 그 장면 참조 이미지와 일치시키세요(같은 장소, 건축, 전체 환경).
인물의 자세와 동작, 프레이밍, 조명만 바꿔서 아래 화면 설명에 맞추세요.

이 번호 선언은 두 가지 핵심 작업을 합니다:

“사람”과 “장소”를 따로 선언 — “image 2는 장소이지, 잠가야 할 두 번째 얼굴이 아니다”라고 모델에 명확히 알려, 장면 속 행인까지 주인공으로 잠그려는 것을 막습니다.
“잠글 것”과 “바꿀 것”을 따로 선언 — 정체성과 장소는 잠그고, 자세, 프레이밍, 조명만 풀어 줍니다. 그러면 같은 캐릭터가 같은 장면 안에서 다른 동작을 하고 다른 위치로 걸어가도, 사람과 장소는 늘 “그 사람, 그 장소”로 남습니다.

이 선언문을 직접 쓸 필요는 없습니다. SunoMV 숏 에디터에서 숏에 캐릭터와 장면을 골라 두면 이 협업 선언이 자동으로 조립됩니다. 당신이 할 일은 장면 라이브러리를 제대로 만들고, 숏마다 장면을 제대로 고르는 것뿐입니다.

SunoMV에서 3단계로 곡 전체 장면 고정하기

장면 라이브러리 만들기: 숏 에디터에서 “장면”을 열고, 이 곡의 장소에 맞춰 3~5개 장면을 만들어 각각 한두 줄 설명(장소 + 시간대 + 세트 + 조명)을 씁니다. 못 박아야 할 장소에는 참조 이미지를 한 장 더 넣습니다.
숏마다 장면 걸기: 각 숏에서 장면 라이브러리의 장면 하나를 단일 선택합니다. 1절은 전부 “침실”, 후렴은 “옥상”으로 전환, 브리지는 다시 “침실” — 돌아온 것은 같은 침실 항목이지 새 침실이 아닙니다.
생성 / 재생성: 생성 시 각 숏의 장면 설명이 화면 프롬프트에 자동으로 붙어(장소 고정), 선택한 장면 참조 이미지는 추가 참조 이미지로 들어갑니다(세트 못 박기). 장면을 바꾸면 캐시가 자동으로 무효화되어 다시 그려지므로, 옛 장소로 얼버무리지 않습니다.

이 과정에서 당신은 “라이브러리 만들기”와 “장면 고르기”에만 신경 쓰면 되고, 고정의 궂은일은 에디터가 뒤에서 처리합니다.

까다로운 상황 처리

Q: 한 곡에 장면이 5개를 넘으면? 먼저 정말 그렇게 많이 필요한지 자문하세요. 대부분의 뮤직비디오는 3~4개 장면을 오가는 편이 오히려 “하나의 완결된 세계”라는 통일감을 줍니다. 장면이 너무 많은 것 자체가 “콜라주 느낌”의 원천입니다. 정말 더 필요하다면 비슷한 것을 합치세요 (“낮 거실”과 “밤 거실”은 같은 설명 + 다른 조명 힌트로 만들 수 있지, 두 개의 독립 장면일 필요는 없습니다).

Q: 같은 장소를 낮과 밤 두 버전으로 쓰고 싶다면? 두 개의 독립 장면으로 만드세요. “거실·낮”과 “거실·밤”으로, 설명에서 각각 조명을 잠그고 필요하면 각각 참조 이미지를 한 장씩 붙입니다. 그러면 숏에서 “거실·밤”을 고를 때 항상 밤 세트를 받아 낮과 섞이지 않습니다.

Q: 실내에서 실외로 넘어가는 인접 숏이 자꾸 안 이어지면? 장면이 잠그는 것은 “단일 숏의 장소”이고, 숏 사이의 연속성은 콘티 순서와 트랜지션 설계로 만듭니다. 같은 장면의 숏들을 붙여 배치하고 트랜지션을 장면 전환 경계에 두는 편이, 모델에게 연속성을 “추측”하게 시키는 것보다 훨씬 안정적입니다. 자세한 내용은 숏별 콘티 작성법을 참고하세요.

자주 묻는 질문 (FAQ)

Suno로 장면이 일관된 뮤직비디오를 바로 만들 수 있나요? Suno는 곡을 만드는 일을 하지, 콘티나 화면 일관성을 책임지지 않습니다. Suno 곡을 장면이 안 흔들리는 뮤직비디오로 만들려면, 곡 위에 콘티 + 캐릭터 + 장면 제어 레이어를 한 겹 더해야 합니다. 이것이 바로 SunoMV 같은 도구가 하는 일입니다. 전체 흐름은 Suno 곡에서 완성 영상까지의 콘티 워크플로를 보세요.

장면에는 반드시 참조 이미지를 넣어야 하나요? 꼭 그렇지는 않습니다. 장면의 주축은 글 설명이고, 참조 이미지는 “특정 장소를 완전히 못 박아야 할 때”의 선택적 보강재입니다. 먼저 설명으로 시작하고, 심하게 흔들리면 이미지를 더하세요.

캐릭터 일관성과 장면 일관성 중 무엇을 먼저 해야 하나요? 캐릭터가 먼저입니다. 얼굴이 무너지면 관객이 한눈에 알아챕니다. 장소 표류는 “보이지 않는 감점”입니다. 얼굴을 고정한 다음, 이 글의 방법으로 장면이라는 나머지 절반을 채우세요.

나머지 절반도 잠그자

캐릭터 일관성은 뮤직비디오가 “배우를 바꾼 것 같지 않게” 만들고, 장면 일관성은 “촬영장을 바꾼 것 같지 않게” 만듭니다. 둘을 함께 잠가야 비로소 당신의 AI 뮤직비디오가 “하나의 세계에서 찍어 낸 영상”처럼 보입니다. 보기에는 예쁘지만 제각각인 단일 프레임들의 콜라주가 아니라.

SunoMV의 숏 에디터를 열어, 먼저 장면 3개짜리 작은 라이브러리를 만들고, 가장 마음에 안 드는 그 몇 컷에 걸어 다시 한번 생성해 보세요. “같은 장소”가 주는 연결감을 바로 느낄 수 있습니다.