SunoMV
감정 기반 AI 음악 창작 방법론: 심상에서 SunoMV 출력까지의 3단계 워크플로우 (2026)
가이드

감정 기반 AI 음악 창작 방법론: 심상에서 SunoMV 출력까지의 3단계 워크플로우 (2026)

게시일 · 작성자: SunoMV 팀

감정 기반 AI 음악 창작 방법론: 심상에서 SunoMV 출력까지의 3단계 워크플로우 (2026)

2026년 5월 1일 기준, 대다수 AI 음악 사용자의 실패 패턴은 “프롬프트부터 쓰기”다. 형용사와 악기, 장르명을 쌓아올린 결과 잊혀지는 벽지 음악이 나온다. 이 방법론은 순서를 뒤집는다: 먼저 감정을 고정하고, 그 다음 감정을 AI가 이해할 수 있는 파라미터로 번역, 마지막으로 SunoMV로 완성품을 만든다. “7단계 프롬프트 엔지니어링”이나 “장르 융합법”과는 보완 관계 — 한 단계 앞선 레이어다.

왜 감정에서 시작하는가

접근법 시작점 실패 모드
장르 우선 “lo-fi 곡이 필요해” 천편일률, 남의 곡처럼 들림
장르 융합 우선 “lo-fi + 클래식” 태그 이어붙이기, 감정 앵커 부재
감정 우선 (이 글) “새벽에 혼자 걷는 외로움” 장르가 자연 발생, 시각적이고 기억에 남음

귀가 기억하는 건 BPM이 아니라 “이 곡이 무엇을 떠올리게 했는가”다. 감정 우선은 청자의 기억 시스템에 직접 연결되기 때문에 작동한다.

1단계: 감정 매핑

1.1 12자 이내의 “감정 태그” 쓰기

추상 형용사(“아름다운”, “슬픈”)가 아닌, 장면이 있는 미니 서사.

✗: “슬픈 분위기” / “따뜻한 노래” ○: “새벽에 혼자 걷는 외로움” / “아이가 처음 자전거에서 손을 놓는 순간” / “해고 다음 날 아침 식사”

판단 기준: 눈을 감았을 때 그림이 보이는가? 보이면 통과, 안 보이면 다시 쓴다.

1.2 4개 축에 투영

0 — 10
온도 (cool ↔ warm) 0 = 차갑고 절제; 10 = 따뜻한 포옹
템포 (slow ↔ fast) 0 = 정지 명상; 10 = 심박 가속
질감 (lo-fi ↔ hi-fi) 0 = 거친 핸드메이드; 10 = 스튜디오급
에너지 (calm ↔ epic) 0 = 속삭임; 10 = 에픽 추진

“새벽에 혼자 걷는 외로움” 참고 점수: 온도 3 / 템포 2 / 질감 3 / 에너지 2

1.3 각 축에 “기준 앵커곡” 1곡씩 떠올리기

각 축마다 그 위치에 사는 기존 곡 하나를 떠올린다. 이는 내부 눈금 맞추기를 위한 것 — AI는 필요 없고, 내가 필요하다.

2단계: AI 음악 파라미터화

4축 좌표를 3종류 키워드로 번역.

2.1 악기 키워드 (5개, 온도 + 질감 대응)

  • 온도 낮음 + 질감 낮음 → reverb piano, ambient pad, tape hiss, distant strings, soft kick
  • 온도 높음 + 질감 높음 → warm grand piano, live brass, acoustic guitar, layered vocals, orchestral swell

2.2 템포 키워드 (3개, 템포 + 에너지 대응)

  • 템포 낮음 + 에너지 낮음 → 60 bpm, sparse, breath
  • 템포 높음 + 에너지 높음 → 128 bpm, driving, cinematic build

2.3 장면 단어 (2개, 감정 태그 그 자체에서)

감정 태그의 장면 요소 직접 재활용: “late-night city” / “first solo bike ride” / “day after layoff”.

최종 프롬프트 템플릿:

[감정 한 문장], [악기 1-3개], [템포 단어 1개], [장면 단어 1개]

예: “Loneliness of walking home at dawn, reverb piano, soft kick, 60 bpm, late-night city”

12 단어 안팎이 스위트 스폿. 20 단어를 넘으면 감정 앵커가 희석된다.

3단계: SunoMV 실행

3.1 모델 페어링 선택

suno.bi → Create를 열고 7개 AI 음악 모델 중 2개에 같은 프롬프트를 돌린다:

  • Suno V5: 표현력 최강, 마스터 버전
  • Lyria 3 Pro: 구조 완비 풀 길이, B 버전

2개 모델로 샘플링 다양성 확보 — 단일 모델 운에 걸지 말 것.

3.2 감정 좌표와 대조하며 블라인드 리스닝

눈 감고 30초 듣고 4가지 질문:

  1. 온도가 맞는가?
  2. 템포가 맞는가?
  3. 질감이 맞는가?
  4. 에너지가 맞는가?

“아니오”가 있으면 해당 키워드 카테고리만 조정해서 재생성 (감정은 바꾸지 말고 키워드만 수정).

3.3 비주얼로 감정 보강

SunoMV 내장 비주얼 프리셋:

  • 차가운 감정 (온도 ≤ 4) → Cinematic Abstract / Realistic 도시 야경
  • 따뜻한 감정 (온도 ≥ 6) → Story / Realistic 실내 따뜻한 조명
  • 에픽 감정 (에너지 ≥ 7) → Cinematic Abstract 와이드 샷

비주얼은 감정에 봉사하는 것, 기술 과시가 아니다.

3.4 1080p HD 내보내기

Pro 플랜(월 29.9달러)은 1080p HD 내보내기 + 상업 라이선스 포함. Studio(월 129.9달러)는 일괄 생성(약 5배 속도) 지원, 여러 감정 변형을 한 번에 시도할 때 적합.

다른 방법론과의 관계

  • “7단계 프롬프트 엔지니어링”: 이 방법론의 2단계가 그것의 간략판 — 단, 시작점이 감정이지 프롬프트 자체가 아니다
  • “장르 융합법”: 장르 융합은 “장르 신선함”을 해결, 감정법은 “감정 기억점”을 해결 — 중첩 가능
  • “5단계 브랜드 송 법”: 5단계 법의 1-2단계(brand statement → 감정 벡터)가 이 방법론의 1단계 — 같은 DNA

3가지 흔한 실수

  1. 감정이 너무 추상적: “슬픈” / “기쁜” = 안 쓴 거나 마찬가지 — 장면 있는 미니 서사 필수
  2. 축 점수 속이기: 4축 모두 5점 = 아무것도 정하지 않은 것 — 각 축마다 진지한 선택을 강제하라
  3. 블라인드 리스닝 건너뛰기: 눈 뜨고 파라미터 조정 = 귀를 눈으로 대체 = “보기에 맞는” 곡을 만드는 셈

FAQ

Q1: 숏폼 (TikTok / Shorts)에 적용되나? A: 특히 적합. 15초 영상이 필요한 건 “한 방에 박히는 감정 앵커” — 감정 매핑이 정확히 그것을 위한 거다.

Q2: “감정 → 프롬프트” 대조표를 줄 수 있나? A: 일부러 안 준다 — 감정은 사적인 것, 대조표를 주면 직접 느끼는 연습이 멈춘다.

Q3: 방향은 맞는데 “딱히 좋진 않을 때”는? A: 감정 태그와 4축 점수를 고정한 채 악기 키워드만 교체해 재생성 — 앵커 유지하면서 스타일 미세 조정 가능.

Q4: 순수 프롬프트 엔지니어링 대비 출력 속도는? A: 순수 프롬프트 엔지니어링은 숙련자 손에서 더 빠르다. 감정 기반은 초보자에게도 안정적이고, 출력 곡의 “기억 정착도”가 강하다.

Q5: 다른 사람의 감정 태그를 그대로 써도 되나? A: 기술적으로 가능, 하지만 “사적 앵커”가 사라진다 — 이 방법론에서 가장 값진 부분이 사라지는 셈.

지금 한 번 돌려보기

suno.bi를 열고, 아직 Create는 누르지 말 것. 먼저 포스트잇에 12자 이내 감정 태그 한 줄을 쓰고 — 그 다음 시작.

— SunoMV 팀