오픈AI, 모더레이션 API에 新멀티모달 모더레이션 모델 도입

이석원 기자

2024.09.30

AI 개발 기업 오픈AI가 모더레이션 API(Moderation API)에 새로운 멀티모달 모더레이션 모델을 도입했다. 이 멀티모달 모더레이션 모델은 GPT-4를 기반으로 하며 텍스트와 이미지 2가지 입력을 모두 지원한다. 그 중에서도 영어 이외의 언어에서 이전 모델보다 더 정확하게 모더레이션을 수행한다.

오픈AI가 발표한 새로운 멀티모달 모더레이션 모델은 이전 버전과 마찬가지로 GPT 기반 분류기를 사용해 증오, 폭력, 자해 행위 등 유해한 카테고리에 관한 콘텐츠에 플래그를 지정할 필요가 있는지 평가한다. 또 추가적인 위험 카테고리를 감지하는 기능도 갖추고 있다.

새로운 멀티모달 모더레이션 모델은 감지된 카테고리와 일치하는 콘텐츠 가능성을 반영하도록 확률 점수를 조정해 모더레이션 결정을 더 세밀하게 제어할 수 있다. 새로운 멀티모달 모더레이션 모델은 오픈AI의 모더레이션 API를 통해 모든 개발자가 무료로 사용할 수 있다.

오픈AI가 모더레이션용 API인 모더레이션 API를 출시한 건 2022년 8월. 그 이후로 모더레이션 기능이 처리해야 하는 콘텐츠량과 종류가 날로 증가하고 있다. AI 애플리케이션 보급이 모더레이션이 필요한 콘텐츠 급증 주요 원인이다. 새로운 멀티모달 모더레이션 모델 등장으로 더 많은 개발자가 오픈AI 안전 시스템에 대한 최신 연구와 투자 혜택을 받을 수 있기를 바란다라고 오픈AI 측은 밝히고 있다.

소셜 미디어 플랫폼부터 생산성 도구, 생성 AI 플랫폼까지 다양한 분야 기업이 모더레이션 API를 사용해 사용자에게 더 안전한 제품을 구축하고 있다. 예를 들어 그래머리(Grammarly)는 AI 커뮤니케이션 지원 안전 가드레일 일부로 모더레이션 API를 사용해 제품 출력이 안전하고 공정하다는 걸 보장하고 있다. 일레븐랩스(ElevenLabs)는 자사 오디오 AI 제품에 의해 생성된 콘텐츠를 스캔하고 정책을 위반하는 출력을 방지하기 위해 모더레이션 API를 활용하고 있다.

업데이트된 오픈AI 멀티모달 모더레이션 모델에는 다음과 같은 개선 사항이 포함된다. 먼저 6개 카테고리에 걸친 멀티모달 위험 분류. 새로운 모델에서는 이미지를 단독으로 또는 텍스트와 결합해 유해 콘텐츠를 포함할 가능성을 평가할 수 있다. 폭력, 자해 행위, 성에 관한 카테고리에서 지원되며 나머지 카테고리는 텍스트만 지원한다. 오픈AI는 앞으로 멀티모달 지원을 더 넓은 카테고리로 확장할 예정이다.

이어 2가지 새로운 텍스트 전용 위험 카테고리. 새로운 모델은 이전 모델과 비교해 2가지 카테고리에서 더 위험한 콘텐츠를 감지할 수 있다. 불법 행위 실행 방법에 관한 지시나 조언과 폭력을 포함한 불법 행위를 다룰 예정이다.

3번째는 영어 이외의 콘텐츠에서 더 정확한 점수. 새로운 멀티모달 모더레이션 모델을 40개 언어로 테스트한 결과 이전 모델과 비교해 사내 평가에서 점수가 42%나 향상됐다. 크메르어나 스와티어 등 리소스가 적은 언어에서는 점수가 70% 향상됐으며 텔루구어(6.4배), 벵골어(5.6배), 마라티어(4.6배)에서는 더 큰 향상이 있었다. 이전 모델에서는 영어 이외 언어 지원이 제한적이었지만 스페인어, 독일어, 이탈리아어, 폴란드어, 베트남어, 포르투갈어, 프랑스어, 중국어, 인도네시아어, 영어에서의 새로운 모델의 성능은 이전 모델 영어 성능을 상회한다.

4번째는 조정된 점수. 새로운 모델 점수는 콘텐츠가 관련 정책을 위반할 가능성을 더 정확하게 나타내도록 되어 있으며 향후 모더레이션 모델 전체에서 일관성이 크게 높아질 것이다.

오픈AI는 AI 콘텐츠 모더레이션 시스템은 플랫폼 정책 적용과 인간 모더레이터 작업 부하 감소에 도움이 되며 디지털 플랫폼 건전성을 유지하는 데 중요하다며 이전 모델과 마찬가지로 새로운 모더레이션 모델을 사용 수준에 따른 속도 제한이 있는 모더레이션 API를 통해 모든 개발자가 무료로 사용할 수 있도록 하고 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사