대량 데이터로 훈련된 AI는 다양한 작업을 고도로 처리할 수 있을 만큼 진화하고 있지만 여전히 취약한 분야와 실수하기 쉬운 경우가 있다. 캘리포니아 대학교 샌디에고 캠퍼스와 칭화대학 공동 연구에 따르면 AI가 시스템에 내장된 지식에만 의존하지 않고 외부 도구를 언제 활용해야 하는지를 AI에게 가르쳐 성능 정확도가 28% 향상되는 것으로 나타났다.
AI는 입력된 내용에 대해 그럴듯해 보이는 부정확한 내용을 출력할 수 있다. 이 현상은 환각(할루시네이션)이라고 불리며 생성 AI 도입을 검토하는 기업에게 환각으로 인한 오류는 가장 우려되는 위험 중 하나다. 오픈소스 환각 평가 모델 HEM을 발표한 AI 기업 벡타라(Vectara) 엔지니어 사이먼 휴즈는 생성 AI를 조직이 효과적으로 도입하려면 위험과 잠재적인 단점을 명확히 파악해야 한다고 언급했다. 그에 따르면 문서 1,000건을 요약한 결과를 HEM으로 평가했을 때 최대 27.2% 환각률이 있었다고 한다.
AI 환각을 방지하는 접근 방식으로 캘리포니아 대학교 샌디에고 캠퍼스와 칭화대학교의 논문에서는 학습시키면서 적응하기(Adapting While Learning)라고 명명한 새로운 AI 훈련 프로세스를 제안하고 있다. 기존 방식에서는 대규모 언어 모델(LLM)을 다른 도구와 통합하면 작업에서 얻는 결과 신뢰성은 향상되지만 도구에 대한 과도한 의존으로 이어져 기본적인 추론을 통해 단순한 문제를 해결하는 모델 능력이 저하되는 경향이 있었다.
학습시키면서 적응하기에서는 모델이 외부 도구를 사용해 생성된 솔루션으로부터 학습해 참조하는 지식을 내재화한다. 다음으로 문제를 쉬움 또는 어려움으로 분류하는 걸 학습하고 그에 따라 도구를 사용할지 여부를 결정한다. 다시 말해 AI가 처리하는 작업 난이도를 평가할 수 있게 해 난이도에 따라 도구를 활용할지 여부를 결정할 수 있게 하는 것.
학습시키면서 적응하기에서 중요한 점 중 하나는 효율성을 최우선으로 고려한 접근 방식이라는 것이다. 연구진은 GPT-4 같은 대형 LLM과 비교해 훨씬 적은 80억 개 매개변수를 가진 LLM을 사용한 결과 GPT-4나 클로드-3.5 같은 최첨단 모델과 비교해 답변 정확도가 28.18% 향상되고 도구 사용 정확도가 13.89% 향상됐다는 결과를 보고하고 있다.
주요 AI 기업은 더 작고 고성능인 LLM을 출시하는 AI 다운사이징 단계에 진입하고 있으며 이 연구는 그런 업계 동향에 부합하는 것이라고 지적하고 있다. 연구에서는 내부 지식으로 해결할지 도구를 사용할지를 판단하는 능력이 순수한 모델 규모나 계산 능력보다 AI에게 더 중요할 수 있다는 것을 시사하고 있다.
현재 AI 시스템 대부분은 항상 외부 도구에 의존하거나 모든 것을 내부적으로 해결하려고 하는 2가지 방식 중 하나다. 항상 외부 도구에 접근하는 AI는 계산 비용이 증가하고 단순한 작업이 느려지는 단점이 있다. 또 내부 지식만으로 해결하는 AI는 충분히 훈련되지 않은 분야에서 제대로 작동하지 않는다. 두 접근 방식 모두 특수한 도구가 필요한 복잡한 문제에서 잠재적인 오류가 발생한다.
이런 비효율성은 기술적인 문제일 뿐 아니라 비즈니스적인 문제이기도 하다. AI를 실제로 사용하는 기업은 AI가 내부적으로 처리해야 할 기본적인 작업조차도 외부 도구를 실행하기 위해 클라우드 컴퓨팅 리소스에 고액을 지불해야 하거나 독립형 AI 시스템이 필요한 시점에 적절한 도구를 사용하지 않아 실수가 발생하는 등 만족스러운 성능을 얻기 어려운 상황이다. AI가 도구를 사용하는 시기에 대해 인간과 같은 판단을 하는 모델은 효율성과 정확성이 모두 중요한 과학 연구, 재무 모델링, 의료 진단 등의 분야에서 가치가 있을 것으로 기대되고 있다. 관련 내용은 이곳에서 확인할 수 있다.