오픈AI 음성 인식 AI, 환각 현상 일으켜 텍스트 조작?

이원영 기자

2024.11.01

오픈AI는 음성 인식 AI인 위스퍼(Whisper)를 인간 수준 견고함과 정확성을 갖춘 도구라고 홍보하고 있지만 전문가는 이에 큰 결함이 있다고 지적하고 있다. 보도에 따르면 소프트웨어 엔지니어, 개발자, 학술 연구자 수십 명과의 인터뷰에서 위스퍼가 음성 인식 과정에서 일부 텍스트나 문장을 조작하는 사례가 발견됐다고 한다. 이런 조작은 AI 환각 현상에 의한 것으로 인종차별적인 발언이나 폭력적인 표현 심지어는 존재하지 않는 의료 처치를 만들어내는 경우도 있었다고 한다.

전문가에 따르면 위스퍼는 음성 인식, 인터뷰 번역, 동영상 자막 작성 등 다양한 용도로 사용되고 있다. 하지만 이런 도구가 환각 현상으로 인해 텍스트를 조작하는 건 문제라고 전문가는 지적한다. 또 개발사인 오픈AI는 위스퍼를 고위험 영역에서 사용하지 말라고 경고하고 있음에도 불구하고 일부 의료 기관에서는 의사 진료 내용을 기록하는 데 위스퍼를 사용하고 있는 것으로 밝혀졌다.

전문가는 위스퍼가 업무 중에 자주 환각 현상을 일으키는 장면을 경험했다고 보고했다. 예를 들어 미시간 대학 연구자는 위스퍼 모델이 업데이트되기 전 실시한 조사에서 음성 기록 10건 중 8건에서 환각에 의한 조작이 발생했다고 보고했다.

또 다른 머신러닝 엔지니어는 위스퍼로 100시간 이상 음성 데이터를 텍스트로 변환했을 때 절반에 환각에 의한 조작이 포함되어 있었다고 말했다. 또 다른 개발자는 위스퍼를 사용해 작성한 텍스트 2만 6,000건 중 거의 모든 건에서 환각에 의한 조작이 발견됐다고 설명했다.

위스퍼 환각 현상에 의한 조작은 음성 데이터 녹음 상태가 양호해도 발생할 수 있다고 한다. 컴퓨터 과학자가 수행한 최근 연구에서는 1만 3,000건 이상 양질의 음성 데이터를 위스퍼로 텍스트로 변환한 결과 187건에서 환각으로 인한 조작이 발견됐다.

2023년까지 바이든 행정부에서 미국 과학기술정책국을 이끌었고 현재 뉴저지 프린스턴 고등연구소에서 근무 중인 알론드라 넬슨 박사는 이런 오류는 그 중에서도 의료 현장에서 심각한 결과를 초래할 수 있다면서 아무도 잘못된 진단을 원하지 않는다며 더 높은 기준을 마련해야 한다고 경고했다.

또 위스퍼는 청각 장애인이나 난청자를 위한 자막 작성에도 사용되고 있다. 하지만 청각 장애인이나 난청자는 저작된 AI 내용을 구별할 수 있는 수단이 없기 때문에 특히 오역에 따른 높은 위험을 안게 된다고 설명하고 있다.

이와 같은 환각 현상이 만연함에 따라 전문가와 지원자, 오픈AI 전 직원은 미국 정부에 AI 규제 도입을 검토해 줄 걸 요구하고 있다. 지난 2월 오픈AI 방향성에 우려를 느껴 회사를 떠난 윌리엄 샌더스는 기업이 이를 우선시한다면 해결할 수 있는 문제라며 이런 상태 AI를 세상에 내놓고 사람들이 AI 능력을 과대평가해 다른 모든 시스템에 통합하려는 건 문제라고 생각한다며 급속한 AI 확산에 대해 우려를 나타냈다.

오픈AI 측은 환각을 줄이는 방법에 대해 지속적으로 연구하고 있으며 연구자 발견을 높이 평가한다고 밝혔다. 또 오픈AI는 모델 업데이트에 피드백을 반영하고 있다고 덧붙였다.

한편 인터뷰한 개발자 대부분은 음성 인식 도구가 단어 오타나 다른 오류를 발생시킬 수 있다고 예상하고 있었지만 위스퍼만큼 오타를 자주 발생시키는 음성 인식 AI는 본 적이 없다고 말했다.

실제로 위스퍼가 조작한 텍스트 예로는 인종에 관한 언급이 전혀 없는 대화에서 화자를 흑인으로 지정하거나 존재하지 않는 과잉 활성화 항생제라는 약물을 만들어내는 경우가 있었다. 이런 조작이 왜 발생하는지는 정확히 밝혀지지 않았지만 소프트웨어 개발자는 일시 정지, 배경 소음, 음악 재생 중 등 특정 상황에서 환각이 발생하는 경향이 있다고 설명했다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사