가사 자막 스타일과 타이밍 방법론: 자막을 MV의 일부로, 위에 붙인 게 아니라

MV를 다 만들고——영상도 아름답고 음악도 딱 맞는데——가사 자막을 넣는 순간 갑자기 「싸구려」가 됩니다. 글자가 작아 안 보이고, 핵심 한 줄이 순식간에 사라지고, 후렴에서 자막이 가장 좋은 화면을 덮고, 줄바꿈이 이상한 데서 일어납니다. 그냥 「자막을 넣었을」 뿐인데 작품 전체의 질감이 무너집니다.

문제는 대부분이 자막을 「나중에 붙이는 한 겹」으로 다룬다는 것. 반면 진짜 고급 가사 MV에서 자막은 영상·리듬과 함께 설계되는 세 번째 축입니다. 글자가 언제 나오는지, 어떻게 하이라이트되는지, 얼마나 머무는지, 화면 어디에 놓는지——모두 기본 파라미터가 아니라 창작상의 결정입니다.

이 방법론은 가사 자막을 독립적으로 최적화할 수 있는 6가지 차원으로 나눕니다. 다 읽으면 판단 기준이 생깁니다——어떤 MV를 봐도 그 자막이 「왜 좋은지」「어디에 문제가 있는지」 바로 말할 수 있고, 고치는 법도 압니다.

왜 「자막」이 AI 뮤직비디오에서 가장 과소평가되나

영상과 음악은 관객이 「먼저 느끼는」 것, 자막은 관객이 「실제로 읽는」 것. MV의 자막이 망가지면 관객의 눈은 「안 읽힘/못 따라감」에 계속 끊기고, 아무리 아름다운 영상도 사람을 붙잡지 못합니다.

자막은 세 가지를 담당합니다——가사 내용 전달, 음악 리듬 강화, 시각 스타일 구축. 대부분은 첫 번째만 해서 자막이 「기능적인 못난 것」이 됩니다. 나머지 둘까지 해야 비로소 자막이 「붙인 것」에서 「화면에 자란 것」이 됩니다.

실용 규칙: MV 자막이 좋은지 판단하려면 폰트가 얼마나 화려한지가 아니라 관객이 읽기에 피곤하지 않은지를 봅니다——재생 속도에서 각 줄을 힘들이지 않고 다 읽으면 좋은 자막입니다.

SunoMV는 노래방 하이라이트부터 미니멀 타이포그래피까지 7가지 자막 스타일을 내장합니다. 다만 스타일은 출발점일 뿐, 같은 스타일이라도 파라미터를 맞추느냐 마느냐로 효과는 천지 차이입니다. 아래 6가지 차원이 「맞추는」 판단 기준입니다.

차원 1: 가독성——자막의 제1원리

가독성은 기초이고, 무너지면 나머지는 다 헛것. 네 가지 요소로 구성됩니다:

글자 크기: 모바일 시청이 주류이므로 작은 것보다 크게. 한 줄이 화면 너비의 70%-85%가 안전 구간.
대비: 밝은 화면엔 진한 글자, 어두운 화면엔 옅은 글자. 화면이 복잡하면 자막에 반투명 배경판이나 외곽선을——글자를 배경에 「녹이지」 말 것.
굵기: 가는 글꼴은 움직이는 화면에서 거의 안 읽힘. 본문은 중간~약간 굵은 굵기로.
머무는 시간: 한 줄 자막은 관객이 두 번 읽을 시간을——사람은 말하는 속도보다 자막을 느리게 읽음.

실용 규칙: 다 만든 뒤 영상을 폰 크기로 줄이고 밝기 절반으로 한 번 본다. 어느 줄에서든 「눈을 가늘게」 하거나 「못 따라가면」 가독성 불합격. 먼저 그걸 해결하고 스타일을 논한다.

사용성 연구 분야의 오랜 합의(Nielsen Norman Group의 가독성 연구 참조)에 따르면, 글자와 배경의 대비 부족이 읽기 어려움의 첫째 원인——이 법칙은 배경이 계속 바뀌는 동영상 자막에서 더 엄격해집니다.

차원 2: 정렬 타이밍——자막과 박자의 관계

자막이 「언제 나오는지」가 음악과의 관계를 결정합니다. 이것이 가사 MV를 일반 자막 영상과 구분하는 핵심입니다.

세 가지 정렬 전략

줄 단위 출현: 가사 한 줄 전체가 불리는 순간 통째로 나옴. 가장 간단·가장 안정, 대부분 상황에 맞음.
단어 단위 하이라이트(노래방식): 글자가 하나씩 보컬을 따라 「켜짐」. 몰입감이 강하지만 타임라인이 극히 정확해야 함. 반 박자 어긋나면 깸.
선행 표시: 자막이 보컬보다 0.5초 먼저 나와 관객에게 「읽을」 여유를 줌. 가사가 빠르거나 외국어 곡에 적합.

실용 규칙: 단어 단위 노래방 하이라이트는 양날의 검——맞으면 멋지고, 어긋나면 줄 단위보다 보기 싫다. 타임라인 정밀도에 자신 없으면 솔직히 줄 단위를. 안정이 화려함을 이긴다.

SunoMV는 「링크 붙여넣기」 모드에서 Suno 곡의 섹션과 시간 메타데이터를 직접 읽어, 단어 단위 정렬 정밀도가 크게 올라갑니다——그래서 로컬 MP3 업로드가 아니라 링크를 쓰라고 늘 강조합니다(전자는 시간 정보를 잃어 음성 특징으로 추측할 수밖에 없고 정밀도가 확연히 떨어짐).

차원 3: 하이라이트 리듬——자막을 「감정에 맞춰 호흡」하게

자막은 처음부터 끝까지 똑같아선 안 됩니다. 곡에는 기승전결이 있고, 자막의 「에너지」도 그에 따라야 합니다.

버스: 정보 중심. 자막은 조용·절제, 화면을 빼앗지 않음.
코러스: 감정의 정점. 자막은 커지고·하이라이트·움직임을 더해 영상과 함께 「터질」 수 있음.
브리지: 전환부. 자막 스타일에 여기서 분명한 변화를 줘 기억의 고리를 만듦.

이걸 잘하면 관객은 가사를 안 읽어도 자막의 「시각 에너지」에서 곡의 감정 곡선을 느낍니다.

실용 규칙: 코러스 자막 애니메이션은 「화룡점정」이지 「전체 구간」이 아니다——전 구간 자막이 움직이면 코러스가 더는 특별하지 않다. 가장 강한 시각 처리는 가장 강한 한두 줄에 남겨둔다.

이 원칙은 감정 곡선 구동 MV 편성 방법론과 일맥상통합니다: 영상 강도가 감정 곡선을 따르고, 자막 에너지도 따르며, 둘이 동기화되어야 작품 전체에 「호흡감」이 생깁니다.

차원 4: 줄바꿈과 레이아웃——한 문장을 이상한 데서 끊지 마라

줄바꿈은 가장 간과되면서도 질감에 가장 큰 영향을 주는 디테일입니다.

문제	양상	해법
부자연스러운 끊김	「나는 너와/바다를 보고 싶어」가 조사 뒤에서 끊김	글자 수가 아니라 의미로 끊기
한 줄이 너무 김	안 보일 만큼 작게 줄여서라도 넣음	두 줄로 나누고, 각 줄 ≤ 완결된 한 구
줄 수가 너무 많음	서너 줄이 하단 절반을 덮음	최대 두 줄, 넘으면 나눠 순서대로 출력

실용 규칙: 자막 줄바꿈은 「이 문장을 어떻게 숨 쉬며 읽나」로 끊고, 「한 줄에 몇 자 들어가나」로 끊지 않는다. 소리 내어 매끄러우면 보기에도 매끄럽다.

차원 5: 플랫폼 안전 영역——한 곡을 다른 플랫폼에 올릴 때의 자막 위치

플랫폼마다 UI가 화면의 다른 영역을 덮으므로, 자막 위치는 그걸 피해야 합니다.

TikTok / Reels / Shorts (세로 9:16): 하단에 버튼과 문구 영역이 많음. 자막을 바닥에 붙이지 말고 중하단보다 약간 위에.
YouTube (가로 16:9): 비교적 여유롭지만 진행 막대와 우하단 컨트롤 영역은 피함.
Spotify Canvas 등 루프 숏폼: 미니멀 우선. 자막은 안 넣어도 되면 안 넣고, 넣어도 핵심 한두 단어만.

각 플랫폼의 크기와 안전 영역 세부는 플랫폼별 뮤직비디오 크기와 길이 완전 가이드를 참조. 각 플랫폼 안전 여백을 더 자세히 설명합니다.

차원 6: 스타일 일관성——자막도 「브랜드」의 일부

시리즈, 채널, 한 아티스트의 여러 MV를 만든다면 자막 스타일은 통일해야 합니다——글꼴·배색·하이라이트 방식이 알아볼 수 있는 시각적 서명을 만듭니다.

판단 필터: 자기용 단발 MV라면 자막 스타일은 자유롭게; 시리즈나 채널이면 시작 전에 자막 규격을 정한다——관객은 그 규격으로 「이건 당신 작품」이라고 알아봅니다.

아래 데모로 입력부터 자막 입힌 완성본까지의 흐름을 먼저 체험할 수 있습니다:

바로 적용하는 자막 체크리스트

6가지 차원을 시작 전·끝내기 전 모두 훑을 수 있는 리스트로 정리합니다:

글자가 충분히 크고 대비가 충분히 강해 폰 크기·밝기 절반에서도 읽히나?
정렬 전략을 제대로 골랐나(자신 없으면 줄 단위, 무리해서 노래방으로 안 함)?
코러스 시각 에너지가 버스보다 강하지만 전 구간 마구 움직이진 않나?
줄바꿈은 의미로 끊고 최대 두 줄?
자막 위치가 목표 플랫폼의 UI 가림 영역을 피했나?
시리즈라면 자막 스타일이 이전 작들과 일관되나?

여섯 가지 다 통과하면 자막은 「붙인 것」에서 「설계한 것」이 됩니다.

MV 질감의 차이를 진짜 벌리는 건 영상이 얼마나 화려한지가 아니라 이런 「읽기에 매끄러운지」 디테일입니다. 자막을 창작의 일부로 진지하게 만들면 작품이 눈에 띄게 「비싸」집니다.

지금 SunoMV를 열고 이 방법에서 한두 조항을 먼저 써서, 자막이 「화면에 자란」 MV를 만드세요.

FAQ

Q: 노래방 단어 단위 하이라이트와 줄 단위 자막, 어느 걸 고를까? A: 타임라인 정밀도에 자신 없으면 줄 단위를——안정적이고 안 깸. 노래방 하이라이트는 맞으면 멋지고 어긋나면 줄 단위보다 보기 싫음. 타임라인 정보가 완전한 경우(로컬 MP3 아닌 링크 모드)에 적합.

Q: 자막 글자 크기는 얼마가 적당? A: 모바일 기준, 한 줄이 화면 너비 70%-85%가 안전 구간. 대부분 폰으로 보니 작은 것보다 크게.

Q: 화면이 너무 화려해 자막이 안 보이면? A: 자막에 반투명 배경판이나 외곽선을 줘 글자가 배경에 녹지 않게. 가독성 차원에서 가장 흔하고 가장 고치기 쉬운 문제입니다.

Q: 한 곡을 여러 플랫폼에 올릴 때 자막을 다시 만들까? A: 내용은 다시 안 만들지만 자막 위치는 플랫폼마다 조정——세로 플랫폼은 하단에 UI 가림이 있으니 자막을 바닥에 붙이지 말 것. 여러 비율로 내보낼 때 함께 조정.

Q: 순수 기악으로 가사가 없으면 자막이 필요한가? A: 안 만들어도 되고, 미니멀한 제목/섹션 표시만 둬도 됨. 순수 기악의 시각 중심은 화면 리듬에 있어 자막은 오히려 군더더기일 수 있음.

Q: SunoMV의 7가지 자막 스타일은 어떻게 고를까? A: 먼저 「노래방식」인지 「타이포그래피식」인지로 크게 나누고, 그 MV의 감정과 플랫폼으로 정함. 시리즈 작품은 하나로 고정해 일관성을 유지하는 게 좋음.

BibiGPT 팀