테크레시피

목소리 수집해 언어별 음성 데이터세트 만든다

웹브라우저 파이어폭스를 개발하는 모질라는 시리와 알렉사 같은 음성 인식 소프트웨어 개발에 도움이 되는 음성 데이터세트를 생성하기 위해 전 세계에 존재하는 언어별로 음성 데이터를 만드는 프로젝트인 커먼보이스(Common Voice)를 전개하고 있다.

커먼보이스는 표제로 제출되어 있는 문장을 읽는 말하기와 이미 녹음된 음성을 듣고 확인하는 듣기 2가지 방법으로 참여할 수 있다. 계정을 생성하고 기여를 할 수 있으며 프로필에 사용자명과 연령, 성별 등을 입력하고 개인정보보호 정책과 약관을 체크하면 된다.

모질라는 2021년 8월 커먼보이스 언어로 16개를 추가했다. 모질라 측은 아마존 알렉사나 애플 시리 같은 음성 기술은 아프리카 기본 언어 등을 이용하는 수백만 명이 지원을 제공한 결과이며 개인은 음성 데이터 세트 만들기에 공헌할 수 있도록 해 지구상 모든 커뮤니티가 음성 기술에 접근하고 이득을 얻을 수 있을 것이라며 커먼보이스 참여를 호소하고 있다. 관련 내용은 이곳에서 확인할 수 있다.