AI는 입력 프롬프트에 따라 다양한 문제를 해결하거나 자연스러운 응답을 생성할 수 있지만 정확도는 프롬프트 작성에 영향을 받는다. 새롭게 AI에 심호흡을 하라는 등 인간에게 보내는 조언을 해주면 문제에 대한 정답률이 높아진다는 게 구글 딥마인드 연구팀에 의해 보고됐다.
보통 AI 모델 성능을 높이기 위해 태스크 수학적 정의를 기반으로 한 최적화 알고리즘과 최적화 프로그램이 사용된다. 반면 딥마인드 연구팀은 대규모 언어 모델을 사용해 자연어로 작성된 메타 프롬프트를 개선하고 최적화 절차를 실행하는 OPRO(Optimization by PROmpting)라는 기법을 고안했다.
아카이브에 게재된 논문(Large Language Models as Optimizers)에선 OPRO가 어떤 구조로 기능하는지 설명하고 있다. OPRO 핵심은 메타 프롬프트(meta-prompt)라는 알고리즘이며 과거 프롬프트가 특정 작업을 해결하는데 얼마나 효과적이었는지 평가한다. 이를 바탕으로 대규모 언어 모델이 개선된 프롬프트를 생성하고 이에 의해 얻은 응답을 평가하고 메타 프롬프트에서 개선하는 흐름이다.
ORPO 구조는 인간이 다양한 프롬프트를 시행착오하고 조금씩 개선해 나가는 절차를 대규모 언어 모델에 담게 하는 것이다. 연구팀은 최적화 문제를 공식적으로 정의하고 프로그래밍된 해석기에서 업데이트 단계를 도출하는 대신 최적화 문제를 자연어로 작성하며 새로운 솔루션을 반복 생성하도록 대규모 언어 모델에 지시한다는 설명이다.
연구팀은 초등학교 수준 산수 문제 데이터세트인 GSM8K와 다양한 문제로 이뤄진 추론 테스트 데이터세트(Big-Bench Hard)를 통해 성능을 테스트했다. 그 결과 OPRO에 의해 최적화된 프롬프트는 양쪽 모두에서 인간이 설계한 프롬프트를 크게 상회하고 경우에 따라선 50%를 초과하는 것으로 밝혀졌다.
이번 연구에서 흥미로운 건 프롬프트(Take a deep breath and work on this problem step by step)를 입력하면 구글 대규모 모델인 PaLM2에서 GSM8K 정답률이 가장 높아졌다는 점이다. PaLM2는 특별한 프롬프트가 없었을 경우라면 GSM8K 정답률이 34%에 그쳤지만 한걸음씩 생각하자(Let’s think step by step)고 덧붙이면 정답률은 71.8%로 올라갔고 심호흡을 하고 이 문제에 한걸음씩 대처하자고 덧붙이면 정답률은 80.2%에 달했다.
당연히 AI는 인간처럼 몸을 갖고 있지 않기 때문에 심호흡을 하면 좋다는 조언을 했다고 심호흡을 하지는 않는다. 그럼에도 불구하고 이런 인간적인 조언이 AI 정확도를 높이는 건 2022년 연구에서도 보고되고 있다.
AI 모델 학습에 포함된 책과 포럼 등에선 더 신중한 해결책을 제시하기 전에 한걸음씩 생각하자거나 심호흡을 하자는 말이 포함되어 있다는 지적이다. 이런 문구를 입력하면 AI 모델이 데이터세트 고품질 응답에 도달하거나 추론과 문제 해결 좋은 예를 생성하는데 도움이 될 수 있다는 주장이다. 관련 내용은 이곳에서 확인할 수 있다.