테크레시피

구글이 설명한 음성 생성형 AI 최신 능력은…

구글은 자사 음성 생성 AI 현황과 기술력에 대해 설명해 눈길을 끈다. 지난 9월 구글은 논문이나 서적 내용을 요약해 팟캐스트 형태 대화 음성으로 변환하는 일루미네이트(Illuminate)를 출시했으며 AI 기반 메모 작성 앱인 노트북LM(NotebookLM)에도 대화형 요약 기능을 추가했다. 이런 수십 초 이상 길이, 여러 화자가 등장, 자연스러운 대화를 특징으로 하는 음성 생성을 가능하게 한 건 오랜 연구 결과다. 2021년 8월 발표된 사운드스트림(SoundStream) 기술로 음성의 운율과 음색 정보를 보존해 음성을 재구성할 수 있게 되었고 2022년 10월 등장한 오디오LM(AudioLM) 기술 덕분에 음성 생성 작업을 음향 토큰 생성 작업으로 전환해 언어 모델링 작업처럼 처리할 수 있게 됐다.

2023년 6월 발표된 사운드스톰(SoundStorm) 기술은 여러 화자가 등장하는 자연스러운 30초간 대화를 생성할 수 있는 능력을 입증했다. 2024년 10월 현재 최대 2분 길이 음성도 생성할 수 있으며 이 2분 분량 음성을 생성하는 데 걸리는 시간은 TPU v5e 칩 기준으로 3초 미만이다. 실제 녹음에 비해 40배 이상 빠른 속도다.

구글은 여러 화자가 등장하는 실감나는 대화 생성을 위해 모델을 수십만 시간 분량 음성 데이터로 사전 학습시킨 뒤 다수 성우가 참여한 대본 없는 대화 및 음과 같은 중간 필러가 포함된 작은 규모의 데이터셋으로 추가 미세 조정을 했다고 밝혔다. 이를 통해 대화 중 화자를 정확히 전환하거나 적절한 멈춤이나 톤을 반영하는 음성을 출력할 수 있게 됐다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사