엔비디아, 들어본 적 없는 소리 만들어주는 AI 생성기 발표

이석원 기자

2024.11.27

엔비디아가 텍스트와 음성에서 음성을 생성하는 AI인 푸가토(Fugatto. Foundational Generative Audio Transformer Opus 1)를 발표했습니다. 음악을 생성하는 AI는 이전에도 존재했지만 푸가토는 입력한 텍스트나 음성을 기반으로 기존 곡에서 한 부분을 추출하거나 목소리 억양과 감정을 변경하거나 지금까지 들어보지 못한 음을 생성할 수 있는 게 특징이다.

동영상에서는 깊고 우렁차게 울리는 베이스 펄스와 간헐적인 고음이 내는 디지털한 짹짹거리는 소리가 조합되어 마치 거대한 지적 기계가 깨어나는 듯한 소리라고 텍스트 프롬프트로 지정한 경우의 소리를 들을 수 있다. 거대한 지적 기계가 깨어나는 듯한 소리라는 꽤 독창적인 표현이지만 푸가토는 그럴듯한 소리를 생성하고 있다.

또 입력한 음성에서 보컬만 추출하는 것도 가능하다. 미국 영어 억양으로 아이가 문 근처에서 이야기하고 있다는 차분한 목소리로 지정하면 상당히 자연스러운 발화 음성이 생성된다. 차분한 목소리에서 화난 목소리로 지정하면 목소리 감정이 확 바뀌어 다소 거친 남성 목소리로 변환된다. 자신이 만든 곡을 입력하고 드럼과 신디사이저를 더해 달라고 요청하면 자동으로 부분을 추가해준다. 또 미디(MIDI) 음성을 입력한 뒤 오페라 스타일 스캣으로 노래하는 느낌으로 지정하면 제대로 여성 오페라 가수가 스캣으로 노래하도록 변환된다.

색소폰 원거리 울음소리로 시작해서 그 후 개 짖는 소리와 일렉트로닉 음악을 결합한 소리를 만들어달라는 지시로도 음성이 생성된다. 색소폰, 개 짖는 소리, 전자 음악이라는 보통은 결합하지 않는 요소로 새로운 음향 경험을 만들어낼 수 있다는 점은 푸가토가 지난 유연성과 창의성을 보여주는 특징이라고 엔비디아 측은 강조하고 있다.

푸가토는 T5 기반 트랜스포머 아키텍처를 기반으로 채택하고, 텍스트 인코더와 오디오 인코더를 결합한 구조를 갖고 있다. 텍스트 인코더에는 ByT5 언어 모델을 사용하고 오디오 처리에는 비교적 얕은 학습 가능한 트랜스포머 인코더를 채택하고 있다.

푸가토 모델 크기는 25억 매개변수까지 확장 가능하며 5만 시간 이상의 음성 데이터로 구성된 대규모 데이터세트로 학습하고 있다. 이를 통해 단일 모델로 다양한 음성 합성 작업에 대응할 수 있는 범용성을 실현하고 있다고 한다. 또 음성 품질을 유지하기 위해 BigVGAN V2라는 사전 훈련된 유니버설 보코더를 사용해 멜 스펙트로그램에서 파형을 생성하고 있다.

핵심적인 특징은 최적 운송 조건부 흐름 매칭이라는 기법을 채택하고 있다는 것. 이 기술을 통해 음성 생성 과정을 부드럽게 제어할 수 있으며 고품질 음성 합성이 가능하다고 한다.

또 여러 지시를 조합하거나 보간하거나 부정할 수 있는 ComposableART도 푸가토가 지난 큰 특징이다. 이는 추론 시 사용되는 기술로 예를 들어 다른 음성 효과를 점진적으로 변화시키거나 특정 요소를 제외하는 등 세밀한 제어가 가능해지고 있다고 한다.

엔비디아 측은 인간처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다며 푸가토는 데이터와 모델 규모로 음성 합성과 변환에 있어 비지도 다중 작업 학습을 가능하게 하는 미래를 향한 첫 걸음이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사