테크레시피

음성 생성 AI, 30개 언어 지원 가능해졌다

일레븐랩스(ElevenLabs)가 공개한 일레븐 멀티링구어(Eleven Multilingual) v2 모델은 다국어로 정감이 풍부한 음성을 생성할 수 있다고 한다. 어떤 텍스트를 입력하면 해당 언어를 자동 인식해 자연스러운 음성을 생성할 수 있는 것. 지원 언어는 30개에 이른다.

그 뿐 아니라 프로페셔널 보이스 클로닝(Professional Voice Cloning)이라는 유상 도구가 있어 누군가 음성을 짥게 입력하면 해당 음성을 모델화해 클론을 만들 수 있다. 이들 2가지 도구를 조합하면 누군가의 목소리로 여러 언어로 말하는 콘텐츠를 만들 수 있다.

물론 일레븐랩스 플랫폼은 지난 1월 선보인 뒤 찬반 목소리가 오갔다. 유명인 목소리로 특정 인종이나 여성, 성전환자를 차별하는 듯한 음성이 만들어지기도 했다. 이후 일레븐랩스는 사용자 자신의 목소리만 복제할 수 있는 대응을 했다. 사용자가 자신의 음성을 입력하게 하고 사용자가 제공하는 음성 샘플과 일치하는지 확인하고 있다. 일레븐랩스 측은 또 AI 음성 클론 기술이 베타 단계를 완료했다고 발표했다.

일레븐랩스는 안드레센호로위츠나 인플랙션AI 공동 창업자인 무스타파 슐레이만(Mustafa Suleyman) 등으로부터 시드 자금으로 1,900만 달러를 조달한 바 있다. 일레븐랩스 공동 창업자인 마티 스타니스제프스키(Mati Staniszewski)는 AI를 이용해 최종적으로 추가 언어와 음성을 모두 커버해 콘텐츠에 대한 언어 장벽을 없애고 싶다는 포부를 밝히기도 했다.

일레븐랩스는 음성 클론 기술을 오디오북이나 영상, 게임 NPC 등에 사용할 수 있으며 이미 게임 개발사 패러독스인터랙티브(Paradox Interactive)와 계약을 맺었다고 한다. 다만 게임 성우에게 게임 음성 제작에 AI가 어떻게 사용될지는 사활 문제다. 오디오북 업계에서도 구글이나 애플 등 AI에 의한 독서를 도입하기 시작하고 있다. 애플 북 앱에선 일부 오디오북을 AI 음성이 들려준다. 이런 음성은 프로 성우에 비하면 억양이 없고 아무래도 기계적이다. 미국 배우가 속한 노동조합 SAG-AFTRA나 전미각본화조합은 지금 파업 중이지만 파업 쟁점은 바로 이런 AI 사용법에 있다.

일레븐랩스는 AI 음성으로 오디오북 제작 시간과 비용을 줄일 수 있다고 주장한다. 실제로 기존에는 오디오북 1개를 만드는데 몇 주가 걸렸지만 일레븐랩스 기술을 사용하면 몇 시간으로 줄일 수 있었다는 설명이다. 오디오북 같은 분야는 AI를 이용해 비용을 절감해 더 확대될 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독