화자 목소리 유지하면서 음성 번역을?

구글이 사람이 말한 내용을 본인 목소리를 유지한 채 음성으로 번역해주는 트랜스라토트론(Translatotron)에 대한 내용을 공개했다. 기존 모델과 달리 다른 엔드투엔드 모델을 채택한 획기적인 시스템으로 음성 번역의 미래를 열 것으로 기대를 모으고 있다.

지금까지 음성 번역은 먼저 화자가 얘기한 내용을 자동 음성 인식을 통해 문장으로 바꾸고 이를 기계 번역을 거치면서 음성 출력을 수행하는 형태를 채택했다. 음성에서 텍스트, 다시 음성이라는 다른 번역 방법을 조합한 모델이 기존 방식이었던 것. 이에 비해 트랜스라토트론은 처음부터 끝까지 음성 번역으로 끝내는 엔드투엔드 방식을 채택한 게 특징, 과정이 단순하기 때문에 기존 방식보다 빠른 번역을 기대할 수 있다.

트랜스라토트론은 언어 하나에서 다른 언어로 음성을 직접 번역한 첫 모델이라고 할 수 있다. 또 번역 이후 음성도 화자 목소리를 유지할 수 있다. 기계 번역 품질 평가법인 BLEU 점수로 따지면 트랜스라토트론 번역도는 기존 시스템보다 조금 낮지만 이 모델의 번역 기준치 이상 정확도를 갖추고 있다고 한다.

Input (Spanish)
Reference translation (English)
Baseline cascade translation
Translatotron translation

기계 번역한 엔드투엔드 모델은 2016년 논문으로 처음 발표된 이후 연구를 계속 해왔지만 엔드투엔드 모델은 기존 모델보다 뛰어나다는 걸 2017년 실증한 바 있다. 트랜스라토트론은 스펙트로그램 정보를 입력해 사용하고 대상 언어 번역 내용을 스펙트럼으로 창출하는 시퀀스투시퀀스(Sequence to Sequence) 네트워크를 기반으로 한다. 또 출력한 스펙트럼을 타임 도메인 파형으로 바꾸는 보커더를 이용하는 것이나 화자 음성을 유지하고 번역 이후 음성을 합성하는 스피커 인코더를 사용한다는 것도 특징 중 하나다. 관련 내용은 이곳에서 확인할 수 있다.

구글 음성번역

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

모든 기사 보기

화자 목소리 유지하면서 음성 번역을?

이석원 기자

스탠포드대 보고서가 짚은 AI 10가지 포인트

AI 시스템 개발할 때 발생할 위기 요인

자율주행 트럭, 운송 산업 혁명 일으킨다

실전 시험 투입까지…미군 AI 프로젝트

Topics

Recent posts

“사과식초 섭취하면 체중 관리‧체지방 감소에 효과”

“커피 자주 마시면 대장암 재발‧전이 위험 낮아진다”

50개 넘는 新기능 일괄 공개한 스트라이프

美 검찰, 바이낸스 전 CEO에 3년 구형

中 유망 CPU 3A6000 수준은 어느 정도일까

엔비디아, GPU 자원 관리 툴 스타트업 인수했다

뉴스레터 구독

Email Newsletter

테크 레시피

Most popular

스탠포드대 보고서가 짚은 AI 10가지 포인트

Most discussed

블록체인은 무엇인가?

기부에서 돈세탁 우려까지…전쟁과 암호화폐

아마존, 제국의 그늘

‘사상 최대의 쇼핑’ 레드햇 삼킨 IBM

인류가 관측한 첫 블랙홀

알파넷이 태어난 날

프로그래머가 가장 사랑하는 언어

콘크리트로? 중력 에너지 저장 시스템

블록체인은 무엇인가

합성 우유가 온다

유리판에 데이터 1만년 보존한다

5G 시대를 위한 퍼즐조각

화자 목소리 유지하면서 음성 번역을?

이 글 공유하기:

이석원 기자

추천기사

Topics

Recent posts

뉴스레터 구독

Email Newsletter

테크 레시피

Most popular

Most discussed