오픈AI는 언어 모델 사실성(factuality)을 측정하기 위한 벤치마크인 심플QA(SimpleQA)를 발표했다. 심플QA는 과학기술부터 엔터테인먼트에 이르기까지 다양한 주제를 포함한 4,000개 이상 검증된 질문으로 구성되어 있다.
언어 모델은 입력된 토큰을 기반으로 확률적으로 응답을 생성하며 사람이 작성한 것 같은 자연스러운 문장을 구성한다. 그러나 AI는 인간처럼 문장 내 논리성이나 정확성을 이해하는 게 아니라 환각(hallucination)이라고 불리는 잘못된 출력이나 답변을 생성할 때가 있다. 이런 문제를 해결하기 위해 최근 언어 모델은 논리 검증을 수행하도록 설계되기도 했다.
심플QA는 높은 정확성, 다양성, 최신 모델 지원, 빠르고 간단한 실행을 목표로 해 만들어졌으며 데이터셋에 포함된 질문에 대해 AI 모델이 생성한 예측 답변을 확인하고 챗GPT를 사용해 답변을 올바름, 잘못됨, 미답변으로 채점한다.
데이터셋에 포함된 질문은 AI 트레이너 1명이 논쟁의 여지 없이 단일 답변이 가능한 것, 시간이 지나도 답변이 변하지 않는 것, GPT-4나 GPT-3.5 환각을 유발할 가능성이 있는 걸 기준으로 선택하며 2번째 AI 트레이너가 각 질문에 답변을 작성해 트레이너 2명이 작성한 답변이 일치하는 질문만 데이터셋에 포함됐다.
추가로 3번째 AI 트레이너가 데이터셋에 포함된 질문 중 무작위로 선택된 1,000개에 대해 답변했을 때 첫 번째와 2번째 트레이너 답변과 94.4% 일치했다. 일치하지 않은 5.6% 중 2.8%는 채점자 오류나 3번째 트레이너 실수 때문이었고 나머지 2.8%는 질문 내용이 모호하거나 모순된 답변이 존재하는 경우였다. 이에 따라 심플QA 데이터셋의 고유 오류율은 3%라고 오픈AI는 보고하고 있다.
오픈AI는 심플QA를 이용해 GPT-4o 미니, o1-mini, GPT-4o, o1-preview의 사실성을 측정했다. GPT-4o 미니와 o1-mini의 사실성이 낮은 이유는 모델이 작아 세계에 대한 지식이 부족하기 때문이라고 오픈AI는 분석했다. 또 o1-mini와 o1-preview는 GPT-4o 미니나 GPT-4o보다 미답변 사례가 더 많았는데 이는 o1-mini와 o1-preview는 추론 능력을 사용해 질문에 대한 답을 알지 못하는 걸 인식할 수 있기 때문이라고 한다.
오픈AI는 언어 모델이 자신의 지식을 얼마나 정확히 인식하고 있는지를 나타내는 교정(calibration)을 2가지 방법으로 측정하고 있다.
첫 번째는 모델이 답변에 대한 신뢰도를 백분율로 표시하게 해 이 신뢰도와 실제 정확성 간 상관관계를 조사한다. 이상적인 모델이라면 예를 들어 75% 신뢰도를 보인 답변 집단 실제 정답률도 75%가 되어야 한다.
2번째는 동일한 질문을 100번 반복해 특정 답변이 나올 빈도와 그 정확성 간 관계를 분석한다. 동일한 답변이 자주 나오는 건 모델이 해당 답변에 대해 자신감을 갖고 있음을 시사한다.
측정 결과 o1-preview와 GPT-4o 같은 대규모 모델이 더 작은 모델에 비해 뛰어난 교정을 보였다. 하지만 모든 모델에서 신뢰도 수치가 실제 정확성을 초과하는 경향이 있어 이 부분에서는 개선 여지가 크다. 그 중에서도 o1-preview는 답변 일관성과 정확성간 상관관계에서 높은 성능을 보이며 답변 빈도와 정확성이 거의 동일한 수준에 도달한 게 확인됐다.
오픈AI는 심플QA는 간단하면서도 도전적인 벤치마크라 평가하지만 짧은 사실 확인형 질문에서 단일 검증 가능 답변이 있는 경우만 측정하는 제한이 있으며 긴 문장의 사실성과의 연관성은 여전히 연구 과제로 남아 있다고 밝혔다. 오픈AI는 심플QA 오픈소스화를 통해 신뢰성 높은 AI 연구를 촉진하려 하며 연구자에게 언어 모델의 사실성을 평가하고 피드백을 제공할 것을 권장하고 있다.
심플QA는 오픈소스로 공개되어 있으며 깃허브에서 리포지토리를 확인할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.