샘플 몇 초면 재현을…MS표 음성 합성 AI

마이크로소프트 리서치 아시아(Microsoft Research Asia)와 마이크로소프트 애저 연구팀이 확산 모델을 이용한 음성 합성 시스템 TTS인 내추럴스피치2(NaturalSpeech 2)를 발표했다. 내추럴스피치2에선 짧은 음성 샘플 몇 초만 이용해 사람 목소리 뿐 아니라 노래 목소리까지 충실하게 시뮬레이션할 수 있다.

지금까지의 TTS 시스템은 단일 화자가 녹음한 데이터세트에서 높은 음성 품질을 달성하고 있지만 이런 데이터세트에선 디양한 인간 아이덴티티나 악센트 등 스타일을 파악하는 건 불가능하다. 또 대규모 다수 데이터세트로 확장하면 현재 TTS 시스템은 보통 음성을 개별 토큰으로 양자화하고 언어 모델을 이용해 토큰 하나를 생성하기 때문에 불안정하다. 운율과 단어 건너뛰기 반복 문제, 낮은 음성 품질이 문제가 되고 있다.

하지만 연구팀이 개발한 내추럴스피치2에선 잠재 확산 모델을 이용해 높은 표현력과 재현성을 가지며 샘플 목소리를 충실히 재현한 텍스트 독서 모델을 작성하는 게 가능하다. 내추럴스피치2는 신경망을 이용한 오디오 코덱과 백터 양자화기를 이용해 입력된 음성 파형을 재구성하고 확산 모델을 이용해 텍스트 입력을 조건으로 하는 잠재 벡터를 생성한다. 또 내추럴스피치2에선 제로샷 학습을 강화하기 위해 음성 피치 예측기와 확산 모델 문맥 내 학습을 촉진하기 위해 발화 촉진 메커니즘이 탑재되어 있다. 또 내추럴스피치2에선 운율과 성질 등에서 지금까지의 TTS 시스템을 상회하고 있다고 한다.

마이크로소프트 연구팀은 내추럴스피치2는 충실한 표현이 가능하고 화자 모방이나 스푸핑 등 악용 위험성이 있다며 주의를 환기하고 있다. 또 이런 윤리적, 잠재적인 문제를 피하기 위해 연구팀은 이 기술을 악용하지 말고 AI가 합성한 음성을 검출하기 위한 대책 도구를 개발하는 걸 개발자에게 호소하고 있다. 더구나 이런 AI 모델을 개발할 때에는 항상 마이크로소프트는 책임 있는 AI 기본 원칙을 준수하고 있다고 밝히고 있다. 내추럴스피치2 소스코드는 깃허브에 게시되어 있다. 관련 내용은 이곳에서 확인할 수 있다.