30개 이상 언어로 텍스트 읽어준다

30개 이상 언어를 지원하며 여러 목소리와 억양으로 문장을 읽어줄 수 있는 음성 기능을 갖춘 플레이 3.0 미니(Play 3.0 mini)가 출시됐다. 자연스러운 음성이 특징이라고 한다.

플레이 3.0 미니는 이메일 주소나 구글 계정을 등록하면 무료로 체험해볼 수 있다. 한국어로 시험해보고 싶다면 접속 후 언어를 한국어로 바꾸면 된다. 음성에서 원하는 목소리를 선택할 수도 있다. 입력란에 문장을 넣고 생성 버튼만 누르면 음성이 생성된다.

물론 자연스러운 억양으로 읽어주기는 하지만 음성이 끊기거나 일부 단어를 정확하게 발음하지 않는 점이 눈에 띈다. 생성 속도 평균 대기 시간은 189밀리초라고 한다.

플레이 3.0 미니는 한국어 외에 일본어, 힌디어, 아랍어, 스페인어, 이탈리아어, 독일어, 프랑스어 등 30개 이상 언어를 지원하며 체험 사이트뿐만 아니라 API를 통해서도 사용할 수 있다. API를 이용해 애플리케이션을 구축하면 사용자 목소리에 반응하는 대화형 모델을 만들 수도 있다. API 이용은 일부 무료지만 기본적으로는 요금이 발생한다.

개발사인 PlayHT에 따르면 대화형 대규모 언어 모델에서 나타나는 환각 현상처럼 음성 대규모 언어 모델도 종종 영문자나 숫자를 잘못 읽는 경우가 있다고 한다. 플레이 3.0 미니는 이 점을 보완해 전화번호나 여권 번호, 날짜 등 중요한 정보를 잘못 읽을 경우에 대응할 수 있도록 설계됐다.

PlayHT는 플레이 3.0 미니는 가장 빠르고 대화형인 음성 모델이면서도 신뢰성과 음질을 크게 개선한 모델이라며 앞으로 몇 개월 안에 출시될 예정인 효율적인 다국어 AI 음성 합성 모델 첫 모델로 자사 목표는 모델을 소형화하고 비용 효율을 높여 사용자 기기에서 직접 실행할 수 있도록 하는 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.