테크레시피

15초 음성만으로 복제 음성 생성해주는 AI 모델

오픈AI가 15초 음성 샘플만으로 합성 음성을 만들 수 있는 AI 모델인 보이스 엔진(Voice Engine)에 대한 제한적 액세스를 제공하기 시작했다. 보이스 엔진은 합성 음성을 만들 때 사용한 음성 샘플과 동일한 언어 뿐 아니라 다양한 언어로 입력된 텍스트를 음성으로 읽어 낼 수 있는 텍스트 음성 생성 도구다.

오픈AI에 따르면 2022년 후반부터 음성 AI 모델 개발을 시작했으며 이 기술은 이미 텍스트 읽기 API와 챗GPT 음성 출력 기능 등 미리 설정된 음성 강화에 사용되고 있다. 개발팀에 따르면 보이스 엔진은 라이선스된 데이터와 공개된 데이터를 조합해 훈련되고 있다고 한다.

현재 보이스 엔진 액세스 권한을 가진 곳은 에이지 오브 러닝 등 일부 기업 뿐이다. 오픈AI는 보이스 엔진에 액세스할 수 있는 개발자는 10명뿐이라고 설명했다.

오픈AI는 보이스 엔진 액세스가 일부 기업으로 제한된 이유에 대해 합성 음성이 악용될 가능성이 있어 광범위한 릴리스를 위해 신중하고 정보에 기반한 접근 방식을 취하고 있다고 밝혔다.

2024년 1월 AI로 만든 바이든 대통령 가짜 음성을 사용한 스팸 전화 사건이 있었기 때문에 미국 정부는 AI 음성 기술의 비윤리적 사용을 억제하기 위해 노력하고 있으며 FCC는 AI 음성을 사용한 로보콜을 불법이라고 선언했다.

오픈AI에 따르면 보이스 엔진은 액세스 권한이 있는 파트너사가 동의 없이 개인이나 단체를 사칭하는 데 사용하지 않겠다는 정책에 동의하도록 요구하고 있다. 또 원래 화자의 명시적 인폼드 동의를 얻을 것도 요구하며 독자 음성 생성 방법을 구축하는 게 아니라 해당 음성이 AI에 의해 생성됐다는 걸 사용자에게 공개해야 한다.

오픈AI는 AI 음성 도구 사용으로 인한 위험을 줄이기 위해 은행 계좌 액세스용 음성 인식 시스템에 대한 단계적 폐지, AI에서 사람 음성 사용을 보호하는 정책 수립, AI 딥페이크에 대한 교육 강화, AI 음성 추적 시스템 개발 등을 제안했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular