챗GPT(ChatGPT)는 고정밀도 문장을 출력할 수 있는 대화형 채팅 AI다. 정밀도는 인간이 쓴 문장인지 구별하는 게 쉽지 않은 수준. 하지만 챗GPT와 같은 채팅 AI가 출력하는 텍스트에는 AI만의 특징이 있다고 한다. 스탠포드대학 연구팀이 챗GPT와 같은 채팅 AI가 작성한 문장을 검출하는 디텍트GPT(DetectGPT)를 개발했다.
이미 학문 세계에선 챗GPT에 대한 대응에 고민하고 있다. 이미 학술지 사이언스는 채팅 AI를 논문 저자로 인정하지 않는다는 정책 개정을 실시하고 있다. 한편 논문에서 도용과 복사, 붙여넣기 등을 탐지하는 서비스를 제공하는 턴잇인(Turnitin)이 챗GPT로 작성된 텍스트를 탐지하는 도구를 개발하고 있기도 하다.
스탠포드대학 연구팀이 개발하는 디텍트GPT도 턴잇인이 개발하는 것과 같은 채팅 AI 생성 텍스트 검출 툴이다. 대규모 언어 모델에서 샘플링한 텍스트는 모델 로그 확률 함수의 음 곡률 영역을 차지하는 경향이 있기 때문에 디텍트GPT에선 이를 활용해 어떤 문장이 특정 대규모 언어 모델로부터 만들어졌는지 여부를 결정하는 새로운 곡률 기반 기준을 정의한다.
개별 분류자 교육, 실제 문장과 생성된 문장 데이터세트 수집, 생성된 텍스트에 대한 명시적 워터마크가 필요하지 않으며 대상 모델에 의해 계산된 로그 확률과 다른 사전에 학습된 언어 모델 관련 사항만 사용된다고 한다.
테스트에선 다른 검출 방법보다 뛰어난 식별력을 발휘해 자연 언어 처리 AI 모델인 GPT-NeoX-20B에서 생성된 가짜 뉴스 검출이 기준선 0.81 AUROC에서 0.95AUROC로 개선됐다고 보고됐다. 코드와 데이터는 곧 공개될 예정이다. 관련 내용은 이곳에서 확인할 수 있다.