오픈AI, LLM 인간 기능 근접도 평가 기준 만들었다

GPT-4 같은 대규모 언어 모델을 개발하는 오픈AI가 대규모 언어 모델 지능이 인간 수준에 얼마나 근접했는지를 나타내기 위한 평가 척도를 작성했다고 밝혔다.

오픈AI 측에 따르면 오픈AI 직원 대상 전체 회의에서 AI에 대한 새로운 평가 척도가 공유됐다고 한다.

이 척도는 레벨 1부터 레벨 5까지 5단계로 구성되어 있으며 레벨이 올라갈수록 인간에 근접했다고 평가된다. 오픈AI는 현재 대규모 언어 모델은 레벨 1이며 레벨 2에 근접하고 있다고 밝혔다. 오픈AI에 따르면 레벨 2는 박사 수준 교육을 받은 인간과 동등한 기본적인 문제 해결 능력을 가진 시스템으로 평가된다고 한다. 레벨 3은 사용자를 대신해 행동할 수 있는 수준, 레벨 4는 새로운 혁신을 만들어낼 수 있는 수준, 최고 단계인 레벨 5는 조직 전체 업무를 수행할 수 있는 수준으로 설정되어 있다고 한다.

오픈AI가 만든 새로운 평가 척도는 미국 로스앨러모스 국립 연구소와의 파트너십 체결 직후 도입됐다고 한다.

오픈AI는 경제적으로 가치 있는 대부분 작업에서 인간을 뛰어넘는 수준으로 고도로 자율적인 시스템으로서 범용 인공지능(AGI) 개발을 목표로 하고 있다. 샘 알트만 CEO는 2023년 10월 AGI 완성까지는 5년 정도 걸릴 것이라고 발언했지만 레벨 5에 해당하는 AGI가 완성되기까지는 방대한 계산 능력과 자금이 필요할 것이다.

다만 이 평가 척도는 어디까지나 잠정적인 것이므로 앞으로 직원과 투자자, 이사회 피드백을 바탕으로 평가 기준이 미세 조정될 가능성이 있다. 관련 내용은 이곳에서 확인할 수 있다.