노래를 불러주는 AI가 있습니다. Diff-SVC라고 부릅니다.
물론 정확히 말하면 stable-diffusion을 기반으로 목소리를 변환해주는것에 가깝습니다. 뒤에 SVC는 Singing Vocal Conversion이라고 해서 대놓고 목소리변환이라고 정의합니다.

누군가의 목소리를 학습한 AI가 다른 사람이 부른 노래의 목소리를 학습한 목소리로 바꿔주는 겁니다.

방법은 Stable-Diffusion과 동일한데

1. 목소리를 학습한 AI를 준비합니다. 이 AI는 사실 MEL-Spectrogram형태로 목소리를 학습했습니다.
2. 타겟의 음성을 준비합니다.
3. 여기에 각종노이즈를 섞어줍니다. 그냥 전파가 잘 안잡히는 라디오 수준으로 만든다고 생각하면 됩니다. 노래가 잡음과 함께 들려서 "노래가 들린다"수준으로 만드는겁니다.
4. 이걸 AI한테 "복원"하라고 시킵니다. AI는 자기나름대로 "복원"작업을 해서 돌려줍니다. 물론 아는 목소리는 자기가 학습한 목소리 뿐이라 오리지널이 아닌 학습한 그 목소리로 복원해줍니다.

...?

5. 보컬의 목소리가 바뀌었습니다.


그래서 이것저것 해보던 중 굉장한 사실을 알았습니다. 분명 "복원"이지만 원래 파일상태가 개판인 타겟을 넣으면 복원된것도 개판으로 나오더군요.

전 이걸 가이드보컬이라고 부르고 있습니다. 실제 녹음실에서 가수들이 노래부를때 가이드보컬의 노래를 듣고 이에 맞춰서 자신의 목소리로 부르거든요. 가이드보컬은 주로 오래된 경력자나 진짜 실력자가 합니다. 그래야 신인 가수들이 따라오니까요.

꼭 AI가 하는 짓이 가이드보컬을 따라 부르는 느낌이네요. 괜찮은 보컬은 AI가 변환했을때 상당히 훌륭한 결과가 나오는 반면 엉망인(특히 음반에서 보컬추출 등으로 만들어서 여기저기 망가진)걸 타겟으로하면 AI도 이상하게 만듭니다.

재미있지요.
TTS의 경우 학습초기를 보면 옹알이를 들을 수 있는데 꼭 애기들이 말을 배우는 느낌이 듭니다. 그런데 보컬AI도 좋은 가이드를 만나야 좋은 결과가 나온다는게 참 신기하네요.

,