기계학습에 의해 번역 소프트웨어 성능은 비약적으로 진보하고 있지만 지구상에 존재하는 언어 중에는 화자가 적고 학습에 필요한 데이터가 불충분한 것도 있다. 구글이 유튜브 자막 생성에 이용되는 대규모 언어 모델인 USM(Universal Speech Model)을 300개 이상 언어로 학습해 비교적 마이너 언어를 포함한 번역 작업으로 뛰어난 성능을 발휘한다고 보고했다.
구글은 2022년 11월 1,000여 개 언어에 대응하는 AI 모델을 구축하겠다는 야심적인 대처(1000 Languages Initiative)를 발표했다. 이 작업에서 과제가 되고 있는 건 기계학습 학습에 이용 가능한 데이터세트가 적은 화자가 적은 언어를 어떻게 지원하는지다.
기존 감독 학습에선 시간과 비용을 들여 데이터세트에 인력으로 라벨을 부여하거나 기존 문자 발생 데이터를 수집해야 한다. 하지만 화자가 비교적 적은 언어에선 고품질 데이터를 수집하기 어렵고 확장성이 부족하다는 문제가 있다.
따라서 구글은 유튜브에서 클로즈드 캡션 생성에 이용되는 USM을 자가 감독 학습이라는 수법을 이용해 학습했다고 보고했다. 자가 감독 학습이란 인간에 의한 라벨이 부여되어 있지 않은 데이터로부터 의사적 라벨을 자동 생성하는 수법으로 음성만으로 된 데이터를 학습에 이용하는 게 가능하다.
USM은 학습 80%를 차지하는 첫 번째 단계에서 BEST-RQ라는 자가 감독 학습을 수행하고 15%를 차지하는 2번째 단계에선 텍스트 데이터를 추가한 사전 학습을 통해 모델 품질을 높이고 5%를 차지하는 3단계에선 타깃 태스크를 실시해 모델을 미조정했다고 한다. 구글은 라벨이 없는 대규모 다국어 데이터세트를 이용해 모델 인코더를 사전 학습하고 라벨이 적은 데이터세트로 미세 조정해 이런 사소한 언어를 인식할 수 있다는 걸 입증했다. 또 이 모델 학습 과정은 새로운 언어와 데이터에 적응하는 데에도 효과적이라고 말한다.
USM은 300개 이상 언어에 걸친 1,200만 시간 음성 데이터와 280억 문장 텍스트로 학습되며 20억 개 매개변수를 가진 첨단 음성 인식 AI라고 한다. USM은 영어와 중국어처럼 널리 사용되는 언어 외에도 마다가스카르어, 루오어, 소가어, 아삼어 등 학습 데이터 수집이 어려운 언어로 자동 음성 인식이 가능하다고 한다. 유튜브 자막 내 다국어 음성 데이터를 이용한 검증에서 USM은 73개 언어 평균으로 단어 오류율 30% 미만을 달성헀으며 구글은 지금까지 달성한 적 없는 이정표라고 강조하고 있다. 또 미국 영어 번역에서도 첨단 모델을 웃도는 성능을 발휘하는 것 외에 오픈AI 고성능 문자 AI인 위스퍼가 단어 에러율 40% 미만으로 18개 언어를 대상으로 한 비교에선 USM 쪽은 32.7% 낮은 단어 오류율을 기록했다.
아프리카계 미국인 영어 데이터세트인 CORAAL, 영어 데이터세트(SpeechStew), 102개 언어를 포함한 데이터세트(FLEURS)를 이용해 USM과 위스퍼에서 단어 에러율을 비교하면 데이터 유무에 관계없이 USM이 낮은 단어 오류율을 기록하고 있다. 기계번역 정확도를 나타내는 BLEU 점수 역시 USM이 위스퍼를 초과한다.
구글은 USM 개발은 전 세계 정보를 정리하고 보편적으로 액세스할 수 있는 구글 미션 실현을 위한 중요한 대처라며 USM 기본 모델 아키텍처와 학습 파이프라인은 1,000개 언어 지원 음성 모델로 확장할 기반이 될 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.