테크레시피

제로에서 합성 음성 독자 설계 가능한 생성 모델

이미지나 문장 생성 AI가 쏟아지는 가운데 AI와 기계학습을 사용해 툴을 제작하는 소프트웨어 기업인 일레븐랩스(Eleven Labs)가 0부터 새로운 합성 읍성을 설계할 수 있는 음성 합성 모델인 디자인 보이스(Design Voice)를 만들고 있다고 밝혔다.

일레븐랩스는 영화와 오디오북을 위한 도구를 개발하고 있다. 이 도구는 원래 화자 목소리 특성을 유지하면서 자동으로 다른 언어로 다시 읽을 수 있다는 특징이 있다. 회사 측에 따르면 도구를 이용하는 음성 합성, 음성 복제 수법을 통해 새로운 음성 합성 AI 아이디어가 떠올랐다고 한다. 실제로 개발에 나선 이 기업은 전용 학습 모델을 학습시켜 무한히 새로운 음성을 만들어내는 기법을 추구하고 있다고 한다.

현재 개발 중인 모델은 성별이나 연령, 악센트, 피치, 말하는 방법 등 새로운 음성 정체성을 확립하기 위해 기본 파라미터를 설정할 수 있다고 한다. 모든 음성을 생성할 수 있기 때문에 같은 기본 파라미터를 설정해도 지금까지 존재하지 않았던 완전히 새로운 음성을 얻을 수 있다고 한다.

제로부터 생성할 수 있다는 특정 덕에 뉴스나 상업 음성 수록 등 독자 음성을 준비할 필요가 있는 것이나 스토리텔링이나 비디오 게임 같은 긴 음성을 필요로 하는 데에도 도움이 된다는 설명이다. 더구나 성우가 라이선스 계약을 맺고 독자적으로 음성 모델을 훈련하고 대가로 요금을 받을 수 있게 되는 것도 전망하고 있다고 한다. 지적재산권을 존중하고 기술이 악용되지 않도록 안전책을 강구하는데 전력을 쏟는 것 외에 모든 음성에 전자워터마크를 넣어 디자인 보이스라는 걸 알게 하는 작업에도 임하고 있다고 한다.

미래에는 사용자가 자신의 목소리를 복제하고 자유롭게 말할 수 있게 하는 것도 검토 중이며 자신의 목소리가 단조롭다고 느끼는 사람, 녹음되는 게 싫은 사람 등 자신의 목소리가 필요한 작품 제작이 더 간단해진다고 한다.

일레븐랩스는 AI를 이용해 게임이라면 개발 초기 단계부터 유연한 발상과 자유로운 설계가 가능하게 됐고 뉴스 오디오북 등이라면 지금까지 수록 비용을 낮출 수 없던 많은 콘텐츠가 더 많은 프로젝트에 자유롭게 참여할 수 있게 된다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독

Most popular