테크레시피

MS, 3초 샘플로 목소리 재현하는 음성합성AI 발표해

마이크로소프트가 1월 5일 새로운 음성 합성 AI 모델인 발리(VALL-E)를 발표했다. 발리는 3초간 음성 샘플만으로 사람 목소리를 충실하게 시뮬레이션할 수 있는 것 외에 한 번 학습한 데이터로부터 그 사람 목소리 뿐 아니라 감정 톤이나 녹음 환경도 재현한 합성 음성을 만들 수 있다.

발리 개발자에 따르면 발리는 고품질 음성 합성 애플리케이션으로 사용할 수 있을 뿐 아니라 녹음한 스피치를 텍스트 원고로부터 변경해 원래 발언하고 있지 않은 내용을 말하는 스피치에 음성을 편집하거나 다른 AI 모델과 결합해 오디오 콘텐츠를 만드는 등 용도로 사용할 수 있다.

마이크로소프트는 발리를 신경 코덱 언어 모델이라고 부른다. 일반 음성 합성 모델이 하는 파형을 조작해 음성을 합성하는 수법과 달리 발리는 텍스트와 음향 프롬프트로부터 개별 음성 코덱 코드를 생성하는 구조를 채택하고 있다. 이는 메타가 2022년 10워 발표한 엔코덱(EnCodec)이라는 기술을 기반으로 하고 있으며 사람 목소리를 분석한 정보를 엔코덱에 의해 토큰이라고 불리는 개별 요소로 분해하고 그 목소리가 3초간 음성 샘플 외 문구를 말했을 때 어떻게 들리는지 학습 데이터를 사용해 일치시켜 나가는 흐름이다.

또 마이크로소프트는 발리 논문에서 발리는 3초간 녹음과 음소 프롬프트 음향 토큰을 트리거 삼아 대응하는 음향 토큰을 생성한다며 음향 토큰을 사용해 최종 파형을 합성한다고 설명하고 있다. 이 음성 합성 기능에는 메타 음성 라이브러리(Libri-Light)가 중요해지고 있으며 이곳에 수록되어 있는 7,000명 이상 화자에 의한 6만 시간에 이르는 영어 음성 중 3초간 샘플 음성에 가까운 게 발견되면 발리 결과도 더 뛰어난 게 된다고 한다.

발리는 화자 성색이나 감정 표현을 재현할 뿐 아니라 샘플이 된 음성 음향 환경도 모방하는 게 가능하다. 예를 들어 샘플 음성이 전화 음성이면 합성된 음성도 전화 음향과 주파수 특성을 시뮬레이션해 전화로 말하는 음성으로 들린다.

음성 합성 AI를 이용한 스푸핑이나 사기 등 악용 위험성에 대해 마이크로소프트 측은 논문에서 발리는 화자 동일성을 유지한 채 음성을 합성할 수 있기 때문에 위장이나 스푸핑 등 잘못된 사용법에 의한 잠재적 위험을 초래할 수 있다면서 이런 위험을 줄이기 위해 음성 클립이 발리로 합성됐는지 여부를 판별하는 탐지 모델을 만들 수도 있다며 개발에 있어선 마이크로소프트가 정한 책임 있는 AI 기본 원칙을 실천해나갈 예정이라고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독