챗GPT 같은 대규모 언어 모델은 마치 인간처럼 말을 만들 수 있지만 한편으론 사실과는 다른 내용을 마치 진실인 것처럼 말하는 환각이 발생한다. AI 기업인 벡타라(Vectara)가 다양한 대규모 언어 모델에서 얼마나 환각이 발생하는지 조사한 결과를 발표했다.
환각 발생률 평가는 대규모 언어 모델에 대해 프롬프트를 전달하고 결과를 조사(Hughes Hallucination Evaluation Model)해 수행했다.
결과를 보면 GPT-4는 낮은 정확도와 환각률 모두에서 최고 점수를 받았으며 GPT-3.5와 구글 제미니 프로 순을 나타냈다. 덧붙여 요약 후 문장이 너무 짧은 경우는 해답을 내지 않은 것으로 취급했다.
생성형 AI 모델 | 정확도 | 환각율 | 답변율 | 요약 평균 단어수 |
GPT 4 | 97.00% | 3.00% | 100.00% | 81.1 |
GPT 4 Turbo | 97.00% | 3.00% | 100.00% | 94.3 |
GPT 3.5 Turbo | 96.50% | 3.50% | 99.60% | 84.1 |
Google Gemini Pro | 95.20% | 4.80% | 98.40% | 89.5 |
Llama 2 70B | 94.90% | 5.10% | 99.90% | 84.9 |
Llama 2 7B | 94.40% | 5.60% | 99.60% | 119.9 |
Llama 2 13B | 94.10% | 5.90% | 99.80% | 82.1 |
Cohere-Chat | 92.50% | 7.50% | 98.00% | 74.4 |
Cohere | 91.50% | 8.50% | 99.80% | 59.8 |
Anthropic Claude 2 | 91.50% | 8.50% | 99.30% | 87.5 |
Google Palm 2 (beta) | 91.40% | 8.60% | 99.80% | 86.6 |
Mixtral 8x7B | 90.70% | 9.30% | 99.90% | 90.7 |
Amazon Titan Express | 90.60% | 9.40% | 99.50% | 98.4 |
Mistral 7B | 90.60% | 9.40% | 98.70% | 96.1 |
Google Palm 2 Chat (beta) | 90.00% | 10.00% | 100.00% | 66.2 |
Google Palm 2 | 87.90% | 12.10% | 92.40% | 36.2 |
Google Palm 2 Chat | 72.80% | 27.20% | 88.80% | 221.1 |
이런 환각 발생 확률을 조사한 표는 새로운 모델이 출현하거나 모델이 갱신될 때마다 깃허브 상에서 새로운 데이터로 갱신해나갈 예정이다. 정기적으로 업데이트를 할 수 있도록 하기 위해 환각 발생률을 대규모 언어 모델을 이용해 조사하도록 했다고 한다.
다만 이번 조사에 있어선 각각 출력한 요약과 원문과의 사실 일관성만 평가 대상이 되고 있어 단지 원문 일부를 잘라 붙여 붙일 뿐인 모델 평가가 높아져 버린다. 환각 발생률과 요약 품질은 완전히 다른 평가축이며 별도 계측을 실시해 독립적으로 평가해야 한다는 것.
대규모 언어 모델 환각 문제를 해결하기까지는 아직 길이 멀지만 이번 평가에 사용된 모델을 오픈소스화해 커뮤니티를 끌어들여 환각 문제에 대한 대응을 다음 단계로 높이고 싶다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.