화자 목소리 유지하면서 음성 번역을?

구글이 사람이 말한 내용을 본인 목소리를 유지한 채 음성으로 번역해주는 트랜스라토트론(Translatotron)에 대한 내용을 공개했다. 기존 모델과 달리 다른 엔드투엔드 모델을 채택한 획기적인 시스템으로 음성 번역의 미래를 열 것으로 기대를 모으고 있다.

지금까지 음성 번역은 먼저 화자가 얘기한 내용을 자동 음성 인식을 통해 문장으로 바꾸고 이를 기계 번역을 거치면서 음성 출력을 수행하는 형태를 채택했다. 음성에서 텍스트, 다시 음성이라는 다른 번역 방법을 조합한 모델이 기존 방식이었던 것. 이에 비해 트랜스라토트론은 처음부터 끝까지 음성 번역으로 끝내는 엔드투엔드 방식을 채택한 게 특징, 과정이 단순하기 때문에 기존 방식보다 빠른 번역을 기대할 수 있다.

트랜스라토트론은 언어 하나에서 다른 언어로 음성을 직접 번역한 첫 모델이라고 할 수 있다. 또 번역 이후 음성도 화자 목소리를 유지할 수 있다. 기계 번역 품질 평가법인 BLEU 점수로 따지면 트랜스라토트론 번역도는 기존 시스템보다 조금 낮지만 이 모델의 번역 기준치 이상 정확도를 갖추고 있다고 한다.

Input (Spanish)
Reference translation (English)
Baseline cascade translation
Translatotron translation

기계 번역한 엔드투엔드 모델은 2016년 논문으로 처음 발표된 이후 연구를 계속 해왔지만 엔드투엔드 모델은 기존 모델보다 뛰어나다는 걸 2017년 실증한 바 있다. 트랜스라토트론은 스펙트로그램 정보를 입력해 사용하고 대상 언어 번역 내용을 스펙트럼으로 창출하는 시퀀스투시퀀스(Sequence to Sequence) 네트워크를 기반으로 한다. 또 출력한 스펙트럼을 타임 도메인 파형으로 바꾸는 보커더를 이용하는 것이나 화자 음성을 유지하고 번역 이후 음성을 합성하는 스피커 인코더를 사용한다는 것도 특징 중 하나다. 관련 내용은 이곳에서 확인할 수 있다.