테크레시피

일레븐랩스, 세계에서 가장 정확한 자동 음성 인식 모델 발표

구글 기계학습 엔지니어인 피오트르 돔브코프스키 등에 의해 설립되고 1억 8,000만 달러 자금 조달을 마친 AI 스타트업 일레븐랩스(ElevenLabs)가 세계에서 가장 정확한 자동 음성 인식(ASR) 모델인 스크라이브(Scribe)를 발표했다.

스크라이브는 일레븐랩스 첫 자동 음성 인식 모델이며 세계에서 가장 정확한 문자 변환 모델이기도 하다. 스크라이브는 현실 세계 속 음성 예측 불가능성에 대응하기 위해 구축됐으며 단어 수준 타임스탬프, 화자 다이얼라이제이션, 오디오 이벤트 태깅 등 기능을 갖추고 있으며 99개 언어로 음성을 문자로 변환할 수 있다.

스크라이브는 정확도를 중시해 설계됐으며 음성 인식 AI에 대한 객관적 평가에 이용되는 데이터셋인 FLEURS와 음성 인식 소프트웨어 개발을 위한 무료 데이터베이스인 커먼 보이스(Common Voice)를 사용한 벤치마크 테스트 결과 구글 제미나이 2.0 플래시, 오픈AI 음성-텍스트 변환 모델인 위스퍼 라지(Whisper Large) V3, 딥그램(Deepgram) 음성-텍스트 변환 모델인 Nova-3 같은 경쟁 모델 성능을 일관되게 능가하는 데 성공했다.

스크라이브는 이탈리아어(98.7%), 영어(96.7%), 기타 97개 언어에서 가장 낮은 자동 문자 변환 단어 오류율을 기록하고 있다. 스크라이브는 99개 언어 중 25개 이상 언어에서 우수한 정확도로 자동 음성 인식(단어 오류율 5% 미만)에 성공했다. 여기에는 영어, 이탈리아어, 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어, 말라얄람어, 폴란드어, 포르투갈어, 스페인어, 베트남어 등이 포함된다고 한다. 또 스크라이브는 세르비아어, 광둥어, 말라얄람어 등 기존 음성 인식 모델에서는 충분히 대응되지 않았던 언어에서 단어 오류율을 크게 낮추는 데 성공했다. 경쟁 모델에서 단어 오류율이 40%를 넘는 언어에서도 충분히 대응할 수 있음을 어필하고 있다.

개발자는 일레븐랩스 API(Speech to Text API)를 통해 스크라이브를 통합하고 화자 다이얼라이제이션과 단어 수준 타임스탬프, 웃음소리 같은 비음성 이벤트 마커를 포함한 구조화된 JSON 형식 트랜스크립트를 얻을 수 있다. 스크라이브는 또 실시간 애플리케이션용 저지연 버전이 곧 출시될 예정이다. 크리에이터나 기업은 일레븐랩스 대시보드에서 직접 스크라이브를 사용해 오디오 파일이나 비디오 파일을 업로드하고 포맷된 트랜스크립트를 생성할 수 있다.

일레븐랩스에 따르면 스크라이브 음성 문자 변환은 1시간당 0.40달러로 이용 가능하다. 이 요금 설정에 대해 보도에선 경쟁력 있는 가격 설정이지만 현재 경쟁사 중에는 기능면에서 차별화를 꾀하면서 음성 문자 변환을 더 저렴한 가격으로 제공하는 곳도 있다고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독