감정 표현까지…인간 같은 음성 합성 오픈소스 AI

미국 콜롬비아대학 연구팀이 대규모 음성 언어 모델 SLM(large speech language models)과 확산 모델을 통한 적대적 학습을 이용해 인간 수준 음성을 합성할 수 있는 TTS(Text-to-Speech) AI인 스타일TTS(StyleTTS) 2를 개발했다.

스타일TTS 2는 참조하는 음성을 필요로 하지 않고 읽는 텍스트에 가장 적합한 스타일을 생성하며 네이티브 스피커만큼 부드럽게 영어를 읽을 수 있다. 스타일TTS 2는 데모 페이지를 통해서도 확인해볼 수 있다. 데모 페이지 시작 부분에선 스타일TTS 2, JETS, VITS, 스타일TTS로 합성한 영어 음성을 들을 수 있다. 모두 부드럽게 읽지만 스타일TTS 2로 읽은 음성은 4종류 가운데 억양이 가장 부드럽다. 일부 단어 악센트에서는 다소 수상한 부분도 있지만 발음은 매끄럽고 기계가 내는 음성보다는 진짜 인간이 읽은 것 같은 인상을 준다.

스타일TTS 2가 합성하는 기본 음성은 여성이며 기본적으론 이 음질로 음성이 생성된다. 더구나 이런 생성에 스타일을 설정하며 독서 음성에 분노, 즐거움, 슬픔, 놀라움 등 감정을 얹는 것도 가능하다고 한다. 관련 내용은 이곳에서 확인할 수 있다.