테크레시피

학습 데이터 없이 작동하는 음성 합성 AI

미국 텍사스 대학 오스틴 캠퍼스 연구팀이 학습 데이터 없이도 작동하는 제로샷 음성 편집‧음성 합성 기능을 가진 AI인 보이스크래프트(VoiceCraft)를 발표했다.

보이스크래프트는 텍스트와 이미지의 멀티모달 모델에서 아이디어를 얻어 제로샷 그러니까 모델이 학습 과정에서 배우지 않은 작업을 수행하는 방식으로 텍스트에서 음성 출력(Text-to-Speech), 음성 합성, 음성 편집이 가능한 신경 코덱 언어 모델(Neural Codec Language Models)이다.

보이스크래프트는 자연스럽게 음성을 편집할 수 있다. 보이스크래프트는 깃허브와 허깅페이스에서 공개되어 직접 사용해볼 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독