이미지 생성 AI인 달리2(DALL‧E 2), 문장 생성 AI인 GPT3 등 고성능 AI를 개발해온 AI 개발 조직인 오픈AI(OpenAI)가 새롭게 음성을 초고정밀도로 인식해 문장을 쓸 수 있는 AI 위스퍼(AI Whisper)를 발표했다. 발표와 동시에 공개된 샘플에선 빠른 말이나 하이템포곡 가사 등 음성도 문제없이 처리하고 있다.
위스퍼는 인터넷에서 수집한 68만 시간 음성 데이터로 학습한 자동 음성 인식 시스템이다. 오픈AI 측은 공개한 샘플을 통해 위스퍼로 문자를 인식하는 결과를 확인할 수 있도록 했다. 위스퍼는 영어 외 음성을 3분의 1 포함한 음성 데이터로 학습했으며 한국어를 비롯해 일본어, 프랑스어 등 언어 문자도 대응하고 있다. 문자 발생 정밀도는 언어마다 다르지만 한국어 단어 오류율은 15.2%로 꽤 정밀도가 높은 편이다.
오픈AI는 위스퍼 모델 데이터와 소스 코드를 공식 깃허브 리포지토리에 공개했다. 또 구글 파이썬 실행 환경(Colaboratory)을 이용한 데모도 공개해 구글 계정만 있으면 간편하게 데모를 실행해볼 수 있다. 관련 내용은 이곳에서 확인할 수 있다.