감정 기반 AI 음악 창작 방법론: 심상에서 SunoMV 출력까지의 3단계 워크플로우 (2026)
감정 기반 AI 음악 창작 방법론: 심상에서 SunoMV 출력까지의 3단계 워크플로우 (2026)
2026년 5월 1일 기준, 대다수 AI 음악 사용자의 실패 패턴은 “프롬프트부터 쓰기”다. 형용사와 악기, 장르명을 쌓아올린 결과 잊혀지는 벽지 음악이 나온다. 이 방법론은 순서를 뒤집는다: 먼저 감정을 고정하고, 그 다음 감정을 AI가 이해할 수 있는 파라미터로 번역, 마지막으로 SunoMV로 완성품을 만든다. “7단계 프롬프트 엔지니어링”이나 “장르 융합법”과는 보완 관계 — 한 단계 앞선 레이어다.
왜 감정에서 시작하는가
| 접근법 | 시작점 | 실패 모드 |
|---|---|---|
| 장르 우선 | “lo-fi 곡이 필요해” | 천편일률, 남의 곡처럼 들림 |
| 장르 융합 우선 | “lo-fi + 클래식” | 태그 이어붙이기, 감정 앵커 부재 |
| 감정 우선 (이 글) | “새벽에 혼자 걷는 외로움” | 장르가 자연 발생, 시각적이고 기억에 남음 |
귀가 기억하는 건 BPM이 아니라 “이 곡이 무엇을 떠올리게 했는가”다. 감정 우선은 청자의 기억 시스템에 직접 연결되기 때문에 작동한다.
1단계: 감정 매핑
1.1 12자 이내의 “감정 태그” 쓰기
추상 형용사(“아름다운”, “슬픈”)가 아닌, 장면이 있는 미니 서사.
✗: “슬픈 분위기” / “따뜻한 노래” ○: “새벽에 혼자 걷는 외로움” / “아이가 처음 자전거에서 손을 놓는 순간” / “해고 다음 날 아침 식사”
판단 기준: 눈을 감았을 때 그림이 보이는가? 보이면 통과, 안 보이면 다시 쓴다.
1.2 4개 축에 투영
| 축 | 0 — 10 |
|---|---|
| 온도 (cool ↔ warm) | 0 = 차갑고 절제; 10 = 따뜻한 포옹 |
| 템포 (slow ↔ fast) | 0 = 정지 명상; 10 = 심박 가속 |
| 질감 (lo-fi ↔ hi-fi) | 0 = 거친 핸드메이드; 10 = 스튜디오급 |
| 에너지 (calm ↔ epic) | 0 = 속삭임; 10 = 에픽 추진 |
“새벽에 혼자 걷는 외로움” 참고 점수: 온도 3 / 템포 2 / 질감 3 / 에너지 2
1.3 각 축에 “기준 앵커곡” 1곡씩 떠올리기
각 축마다 그 위치에 사는 기존 곡 하나를 떠올린다. 이는 내 내부 눈금 맞추기를 위한 것 — AI는 필요 없고, 내가 필요하다.
2단계: AI 음악 파라미터화
4축 좌표를 3종류 키워드로 번역.
2.1 악기 키워드 (5개, 온도 + 질감 대응)
- 온도 낮음 + 질감 낮음 → reverb piano, ambient pad, tape hiss, distant strings, soft kick
- 온도 높음 + 질감 높음 → warm grand piano, live brass, acoustic guitar, layered vocals, orchestral swell
2.2 템포 키워드 (3개, 템포 + 에너지 대응)
- 템포 낮음 + 에너지 낮음 → 60 bpm, sparse, breath
- 템포 높음 + 에너지 높음 → 128 bpm, driving, cinematic build
2.3 장면 단어 (2개, 감정 태그 그 자체에서)
감정 태그의 장면 요소 직접 재활용: “late-night city” / “first solo bike ride” / “day after layoff”.
최종 프롬프트 템플릿:
[감정 한 문장], [악기 1-3개], [템포 단어 1개], [장면 단어 1개]
예: “Loneliness of walking home at dawn, reverb piano, soft kick, 60 bpm, late-night city”
12 단어 안팎이 스위트 스폿. 20 단어를 넘으면 감정 앵커가 희석된다.
3단계: SunoMV 실행
3.1 모델 페어링 선택
suno.bi → Create를 열고 7개 AI 음악 모델 중 2개에 같은 프롬프트를 돌린다:
- Suno V5: 표현력 최강, 마스터 버전
- Lyria 3 Pro: 구조 완비 풀 길이, B 버전
2개 모델로 샘플링 다양성 확보 — 단일 모델 운에 걸지 말 것.
3.2 감정 좌표와 대조하며 블라인드 리스닝
눈 감고 30초 듣고 4가지 질문:
- 온도가 맞는가?
- 템포가 맞는가?
- 질감이 맞는가?
- 에너지가 맞는가?
“아니오”가 있으면 해당 키워드 카테고리만 조정해서 재생성 (감정은 바꾸지 말고 키워드만 수정).
3.3 비주얼로 감정 보강
SunoMV 내장 비주얼 프리셋:
- 차가운 감정 (온도 ≤ 4) → Cinematic Abstract / Realistic 도시 야경
- 따뜻한 감정 (온도 ≥ 6) → Story / Realistic 실내 따뜻한 조명
- 에픽 감정 (에너지 ≥ 7) → Cinematic Abstract 와이드 샷
비주얼은 감정에 봉사하는 것, 기술 과시가 아니다.
3.4 1080p HD 내보내기
Pro 플랜(월 29.9달러)은 1080p HD 내보내기 + 상업 라이선스 포함. Studio(월 129.9달러)는 일괄 생성(약 5배 속도) 지원, 여러 감정 변형을 한 번에 시도할 때 적합.
다른 방법론과의 관계
- “7단계 프롬프트 엔지니어링”: 이 방법론의 2단계가 그것의 간략판 — 단, 시작점이 감정이지 프롬프트 자체가 아니다
- “장르 융합법”: 장르 융합은 “장르 신선함”을 해결, 감정법은 “감정 기억점”을 해결 — 중첩 가능
- “5단계 브랜드 송 법”: 5단계 법의 1-2단계(brand statement → 감정 벡터)가 이 방법론의 1단계 — 같은 DNA
3가지 흔한 실수
- 감정이 너무 추상적: “슬픈” / “기쁜” = 안 쓴 거나 마찬가지 — 장면 있는 미니 서사 필수
- 축 점수 속이기: 4축 모두 5점 = 아무것도 정하지 않은 것 — 각 축마다 진지한 선택을 강제하라
- 블라인드 리스닝 건너뛰기: 눈 뜨고 파라미터 조정 = 귀를 눈으로 대체 = “보기에 맞는” 곡을 만드는 셈
FAQ
Q1: 숏폼 (TikTok / Shorts)에 적용되나? A: 특히 적합. 15초 영상이 필요한 건 “한 방에 박히는 감정 앵커” — 감정 매핑이 정확히 그것을 위한 거다.
Q2: “감정 → 프롬프트” 대조표를 줄 수 있나? A: 일부러 안 준다 — 감정은 사적인 것, 대조표를 주면 직접 느끼는 연습이 멈춘다.
Q3: 방향은 맞는데 “딱히 좋진 않을 때”는? A: 감정 태그와 4축 점수를 고정한 채 악기 키워드만 교체해 재생성 — 앵커 유지하면서 스타일 미세 조정 가능.
Q4: 순수 프롬프트 엔지니어링 대비 출력 속도는? A: 순수 프롬프트 엔지니어링은 숙련자 손에서 더 빠르다. 감정 기반은 초보자에게도 안정적이고, 출력 곡의 “기억 정착도”가 강하다.
Q5: 다른 사람의 감정 태그를 그대로 써도 되나? A: 기술적으로 가능, 하지만 “사적 앵커”가 사라진다 — 이 방법론에서 가장 값진 부분이 사라지는 셈.
지금 한 번 돌려보기
suno.bi를 열고, 아직 Create는 누르지 말 것. 먼저 포스트잇에 12자 이내 감정 태그 한 줄을 쓰고 — 그 다음 시작.
— SunoMV 팀