“GPT-4 미래 수익 성장 예측 능력, 애널리스트보다 뛰어나다”

오픈AI가 개발한 대규모 언어 모델(LLM) GPT-4는 도덕성 테스트에서 인간 대학생보다 뛰어난 점수를 기록했고 보안 권고사항을 읽고 실제 취약점을 악용할 수 있었다. 이처럼 이미 일부 분야에서 인간 능력을 넘어선 GPT-4가 전문 애널리스트 수준 정확도로 재무제표 분석을 수행할 수 있다는 것이 입증됐다.

시카고대학 부스 스쿨 오브 비즈니스 연구팀이 LLM 재무제표 분석 능력을 검증하는 연구를 수행했다. 연구에서는 기업 재무제표만 LLM에 입력하고 미래 수익을 예측하게 했다. 테스트에서 익명화된 대차대조표와 컨텍스트가 전혀 없는 손익계산서만 제공된 경우에도 GPT-4는 인간 애널리스트를 능가하는 예측 정확도를 실현했다. 연구팀은 LLM 예측 정확도는 제한적으로 훈련된 최첨단 기계학습 모델 성능과 동등한 것으로 밝혀졌다며 LLM 예측은 훈련 메모리에서 비롯된 것이 아니라며 LLM이 기업 미래 성과에 대한 유용한 이야기적 통찰력을 생성해낸 것이라며 LLM의 재무제표 해독력을 칭찬했다. 연구에서 수익 예측 정확도와 F값 모두에서 GPT-4가 인간 애널리스트를 앞선 점수를 기록했다.

이 연구에서 중요 포인트는 CoT(Chain-of-Thought) 프롬프트라고 불리는 중간 추론 단계를 거쳐 복잡한 추론 능력을 실현하는 프롬프트를 사용한 것. CoT 프롬프트를 채택해 GPT-4는 금융 애널리스트 분석 프로세스를 에뮬레이트할 수 있게 되어 추세를 파악하고 비율을 계산하며 정보를 통합해 예측을 형성할 수 있게 됐다. CoT 프롬프트를 활용한 GPT (with CoT) 점수가 CoT 프롬프트를 사용하지 않은 GPT (without CoT)보다 높다. 또 CoT 프롬프트를 활용해 GPT-4에 수익 예측을 시키면 정확도가 60% 수준인 데 반해 인간 애널리스트 예측 정확도는 53~57%여서 CoT 프롬프트를 활용하면 인간 애널리스트보다 정확한 수익 예측이 가능한 것으로 나타났다.

연구팀은 종합적으로 이번 연구 결과는 LLM이 의사결정에서 중심적인 역할을 할 가능성이 있다는 걸 시사한다고 결론지었다. 연구팀은 LLM의 장점으로 방대한 지식베이스와 패턴과 비즈니스 콘셉트를 인식하는 능력에서 비롯된 불완전한 정보로도 직관적 추론을 수행할 수 있는 점을 들었다. LLM에 기업의 수익 예측을 수행하게 하는 과정을 보면 대차대조표와 손익계산서를 GPT-4 터보에 입력하고 CoT 프롬프트를 활용해 수익을 예측한다. 구체적으로는 추세 분석, 비율 분석, 이론적 해석을 수행한다고 한다.

지금까지 언어 모델에게 수치 분석은 큰 과제 중 하나였기 때문에 보도에선 이 연구 결과는 주목할 만하다고 언급했다. 연구팀은 언어 모델에게 가장 어려운 영역 중 하나가 수치 영역이라며 이 분야에서 언어 모델은 계산을 수행하고 인간과 같은 해석을 내리며 복잡한 판단을 내려야 한다고 밝혔다. LLM은 텍스트 태스크에서 효과적인 것으로 알려져 있지만 수치를 이해하려면 깊은 수치 추론 능력과 인간 마음 같은 유연성이 부족하다고 여겨졌다고 말해 CoT 프롬프트를 활용한 GPT-4 수익 예측 성과가 기존 LLM을 뛰어넘는 성과를 낸 것을 강조했다.

보도에선 범용 언어 모델이 특정 분야에 특화된 ML 모델 성능을 따라잡고 인간 전문가를 능가하는 능력을 보였다는 점에서 금융 분야에서 LLM의 파괴적 가능성을 보여준다고 지적했다. 인간 전문 지식과 판단력이 곧바로 AI로 대체되기는 어려울 것이지만 GPT-4 같은 강력한 도구가 애널리스트 작업을 크게 강화하고 효율화할 수 있음은 분명해 보이며 앞으로 몇 년 내에 재무제표 분석 분야에서 큰 변화가 일어날 가능성이 있다고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.