테크레시피

오픈AI, 챗GPT 고급 음성 모드 유료 회원에 제공 시작

오픈AI가 챗GPT 유료 버전인 챗GPT 플러스 사용자를 대상으로 고급 음성 모드(Advanced Voice Mode)라는 새로운 기능을 제공한다고 발표했다. 고급 음성 모드는 사용자가 챗GPT와 음성으로 자연스럽게 대화하며 다양한 상호작용을 할 수 있는 기능이다.

이번에 발표된 고급 음성 모드는 오픈AI가 2024년 5월 발표한 GPT-4o 음성 대화 기능을 가리킨다. 기존 챗GPT에도 음성 대화 기능이 있었지만 음성을 텍스트로 변환하는 모델, 입력된 텍스트를 바탕으로 응답 텍스트를 생성하는 모델, 응답 텍스트를 음성으로 변환하는 모델 등 여러 모델을 사용했기 때문에 사람간 자연스러운 대화를 구현하는 데 한계가 있었다. 하지만 GPT-4o는 단일 모델로 음성이나 이미지, 영상을 입력받아 응답을 생성할 수 있어 부드러운 대화가 가능해졌다.

하지만 새로운 GPT-4o 음성 기능은 스카이(Sky)라는 음성이 할리우드 배우 스칼렛 요한슨 목소리와 비슷하다는 논란이 있었다. 오픈AI는 요한슨 목소리를 사용하지 않았다고 부인했지만 이후 문제의 음성인 스카이를 삭제하고 안전 대책을 개선하기 위해 음성 기능 출시를 연기한다고 발표했다.

오픈AI는 챗GPT 플러스 사용자에게 제공되는 고급 음성 모드에 대해 사용자 사용 상황을 주의 깊게 모니터링하고 있다고 언급했다. 또 발표 전 45개 언어를 사용하는 100명 이상 외부 조직과 함께 GPT-4o 음성 기능을 테스트했다고 설명했다. 일부 사용자 그룹은 챗GPT 앱을 통해 고급 음성 모드에 대한 알림을 받고 이후 사용 방법이 설명된 이메일을 받을 예정이라고 한다.

2024년 1월에는 AI 스타트업 일레븐랩스(ElevenLabs) 음성 복제 기술을 사용해 조 바이든 대통령을 사칭하는 음성이 선거 활동에 이용된 사건이 큰 문제가 됐다. 이런 상황을 방지하기 위해 오픈AI는 딥페이크 관련 논쟁을 최대한 피하려고 노력하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독