테크레시피

목소리 수집해 언어별 음성 데이터세트 만든다

웹브라우저 파이어폭스를 개발하는 모질라는 시리와 알렉사 같은 음성 인식 소프트웨어 개발에 도움이 되는 음성 데이터세트를 생성하기 위해 전 세계에 존재하는 언어별로 음성 데이터를 만드는 프로젝트인 커먼보이스(Common Voice)를 전개하고 있다.

커먼보이스는 표제로 제출되어 있는 문장을 읽는 말하기와 이미 녹음된 음성을 듣고 확인하는 듣기 2가지 방법으로 참여할 수 있다. 계정을 생성하고 기여를 할 수 있으며 프로필에 사용자명과 연령, 성별 등을 입력하고 개인정보보호 정책과 약관을 체크하면 된다.

모질라는 2021년 8월 커먼보이스 언어로 16개를 추가했다. 모질라 측은 아마존 알렉사나 애플 시리 같은 음성 기술은 아프리카 기본 언어 등을 이용하는 수백만 명이 지원을 제공한 결과이며 개인은 음성 데이터 세트 만들기에 공헌할 수 있도록 해 지구상 모든 커뮤니티가 음성 기술에 접근하고 이득을 얻을 수 있을 것이라며 커먼보이스 참여를 호소하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독