테크레시피

생성형AI 환각 순위는 어떻게 될까

챗GPT 같은 대규모 언어 모델은 마치 인간처럼 말을 만들 수 있지만 한편으론 사실과는 다른 내용을 마치 진실인 것처럼 말하는 환각이 발생한다. AI 기업인 벡타라(Vectara)가 다양한 대규모 언어 모델에서 얼마나 환각이 발생하는지 조사한 결과를 발표했다.

환각 발생률 평가는 대규모 언어 모델에 대해 프롬프트를 전달하고 결과를 조사(Hughes Hallucination Evaluation Model)해 수행했다.

결과를 보면 GPT-4는 낮은 정확도와 환각률 모두에서 최고 점수를 받았으며 GPT-3.5와 구글 제미니 프로 순을 나타냈다. 덧붙여 요약 후 문장이 너무 짧은 경우는 해답을 내지 않은 것으로 취급했다.

생성형 AI 모델정확도환각율답변율요약 평균 단어수
GPT 497.00%3.00%100.00%81.1
GPT 4 Turbo97.00%3.00%100.00%94.3
GPT 3.5 Turbo96.50%3.50%99.60%84.1
Google Gemini Pro95.20%4.80%98.40%89.5
Llama 2 70B94.90%5.10%99.90%84.9
Llama 2 7B94.40%5.60%99.60%119.9
Llama 2 13B94.10%5.90%99.80%82.1
Cohere-Chat92.50%7.50%98.00%74.4
Cohere91.50%8.50%99.80%59.8
Anthropic Claude 291.50%8.50%99.30%87.5
Google Palm 2 (beta)91.40%8.60%99.80%86.6
Mixtral 8x7B90.70%9.30%99.90%90.7
Amazon Titan Express90.60%9.40%99.50%98.4
Mistral 7B90.60%9.40%98.70%96.1
Google Palm 2 Chat (beta)90.00%10.00%100.00%66.2
Google Palm 287.90%12.10%92.40%36.2
Google Palm 2 Chat72.80%27.20%88.80%221.1

이런 환각 발생 확률을 조사한 표는 새로운 모델이 출현하거나 모델이 갱신될 때마다 깃허브 상에서 새로운 데이터로 갱신해나갈 예정이다. 정기적으로 업데이트를 할 수 있도록 하기 위해 환각 발생률을 대규모 언어 모델을 이용해 조사하도록 했다고 한다.

다만 이번 조사에 있어선 각각 출력한 요약과 원문과의 사실 일관성만 평가 대상이 되고 있어 단지 원문 일부를 잘라 붙여 붙일 뿐인 모델 평가가 높아져 버린다. 환각 발생률과 요약 품질은 완전히 다른 평가축이며 별도 계측을 실시해 독립적으로 평가해야 한다는 것.

대규모 언어 모델 환각 문제를 해결하기까지는 아직 길이 멀지만 이번 평가에 사용된 모델을 오픈소스화해 커뮤니티를 끌어들여 환각 문제에 대한 대응을 다음 단계로 높이고 싶다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독