음성→텍스트‧음성 모두 번역 가능한 LLM

구글이 오디오PaLM(AudioPaLM)을 발표했다. 오디오PaLM은 텍스트 기반 언어 모델인 PaLM2와 음성 기반 언어 모델인 AudioLM을 통합한 멀티모달 아키텍처로 텍스트와 음성을 처리, 생성하며 음성 인식과 음성 번역 등 애플리케이션을 사용할 수 있다.

오디오PaLM은 오디오LM에서 말하는 속도, 음성 강도, 높이, 침묵, 억양 등 언어 정보를 유지하는 기능과 PaLM2가 갖는 언어 지식에서 텍스트와 음성을 한 모델로 처리, 생성할 수 있다.

오디오PaLM은 입력한 음성(Audio & text tokenizers)에서 음성 토큰과 텍스트 토큰이 동시 생성되어 각각 음성용 임베디드 매트릭스(Audio Embeddings Matrix)와 텍스트용 임베디드 매트릭스(Text Embeddings Matrix)로 변환된다. 변환(Decoder-only Transformer)된 음성 토큰은 오디오LM 스테이지 2+3(AudioLM stages 2+3)으로, 텍스트 토큰은 텍스트 디토크나이저(Text detokenizer)로 처리되어 음성이나 텍스트가 출력된다.

구글에 따르면 PaLM2 가중치로 오디오PaLM을 초기화해 음성 처리가 개선됐다고 한다. 이를 통해 사전 학습에 사용되는 대량 텍스트 학습 데이터를 활용해 음성 처리 작업을 지원할 수 있게 되어 결과적으로 음성 번역으로 기존 시스템을 크게 웃도는 성능을 보였다고 한다. 특히 구글은 이전 학습 데이터에 없는 알 수 없는 음성과 텍스트 번역이 가능해졌다고 보고했다.

오디오PaLM 데모 사이트에선 음성에서 음성으로의 번역 결과, 음성에서 텍스트로의 번역 결과, 영어 이외 음성 문자 발생이 공개되어 있다. 언어에 따라 음성 데이터세트에 포함되는 음성 데이터량에 차이가 있기 때문에 높은 정확도로 변환할수 있는 건 불어, 독어, 카탈루냐어, 스페인어이며 페르시아어, 이탈리아어, 러시아어, 중국어, 포르투갈어 정확도는 중간 정도이며 네덜란드어, 터키어, 에스토니아어, 몽골어, 아랍어, 라트비아어, 슬로베니아어, 스웨덴어, 웨일즈어, 타밀어, 인도네시이아 등 정확도는 낮다고 한다.

덧붙여 오디오 PaLM에선 짧은 음성 데이터에서 화자와 같은 소리로 다른 언어로 번역하는 게 가능하다고 한다. 이런 AI 모델이 진화하면 대사를 배우 본인 목소리로 다른 언어로 바꿔줄 수 있게 될 것이다. 관련 내용은 이곳에서 확인할 수 있다.