테크레시피

“GPT-4o 中 토큰은 스팸으로 오염됐다”

5월 오픈AI 최신 AI 모델인 GPT-4o가 발표됐다. 텍스트, 음성, 카메라 입력을 인간만큼 빠른 속도로 처리할 수 있는 높은 성능이라고 보도됐지만 한편으로 중국어 사용자는 훈련에 큰 문제가 있어 토큰 데이터가 오염됐다고 지적하고 있다.

문제를 제기한 이는 프린스턴 대학교 박사과정 연구자다. AI는 입력된 문장을 토큰이라 불리는 단위로 분해해 효율적인 처리를 수행한다. 또 AI를 사용할 때 입출력하는 토큰 수에 따라 요금이 부과되는데 GPT-4o의 경우 입력 100만 토큰당 5달러, 출력 100만 토큰당 15달러다. GPT-4o의 특징 중 하나는 중국어 등 20개 언어로 사용하는 토큰 수를 줄였다는 점인데 이를 통해 취급하는 토큰 수가 적어 요금도 억제할 수 있게 됐다.

GPT-4o는 20만 개 토큰을 갖고 있으며 이 가운데 25%가 영어 이외 언어 토큰이라고 한다.연구자가 공개한 토큰 라이브러리에서 중국어로 가장 긴 토큰 100개를 추출해 토큰 내용을 조사했다. 그 결과 토큰은 성인물과 스팸 구절로 가득해 데이터가 오염된 상태인 것으로 드러났다. 이어 연구자가 제시한 GPT-4o가 다루는 긴 중국어 토큰 내용에는 성인물, 도박 관련 어구가 나열되어 있다고 한다.

이런 문제는 무관한 페이지를 가로채는 스팸 사이트가 생겨나면서 학습 원본 데이터세트가 오염된 데에서 비롯된 것으로 추정된다. 한편 GPT-3.5나 GPT-4에서는 다른 토큰 라이브러리를 사용하고 있어 같은 종류 문제는 발생하지 않았다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독

Most popular