테크레시피

마인크래프트를 GPT-4로 반복 학습하면서…

세계에서 가장 많이 팔린 게임인 마인크래프트는 탐색을 계속하면서 얻을 수 있는 소재가 늘어나 이에 의해 자신의 도구나 무기를 업그레이드해 더 탐색할 수 있는 세계가 퍼진다. 엔비디아와 캘리포니아공대, 스탠포드대학 등 공동 연구팀이 개발한 보이저(Voyager)는 인간 개입 없이 마인크래프트를 학습하면서 공략해 나가는 평생 학습 에이전트로 오픈AI의 대규모 언어 모델인 GPT-4를 탑재하고 있다.

마인크래프트에선 전 세계가 시드값을 기반으로 만들어지므로 시드값을 무작위로 만드는 한 매번 생성되는 세계가 크게 바뀐다. 이 때문에 마인크래프트를 플레이하는데 있어 중요한 건 주어진 상황에 임기응변에 대응해 나가는 능력이다. 또 나무와 돌, 철, 다이아몬드처럼 도구와 무기 성능을 좌우하는 소재 가공 기술을 진화하는 것도 중요하다.

보이저는 탐색을 극대화하는 자동 커리큘럼, 복잡한 동작을 보존, 취득하기 위한 스킬 라이브러리 반복 방식으로 학습한다. 보이저는 목표를 달성하기 위해 GPT-4에서 프로그램을 작성하고 게임 환경 피드백과 오류를 기반으로 GPT-4에서 프로그램을 개선한다. 이를 통해 보이저는 점차 기술 라이브러리를 구축하고 성공적인 프로그램을 선호해 복잡한 기술을 구축한다.

현재 보이저는 텍스트 기반으로 동작하고 있기 때문에 실제로 마인크래프트 상에서 무슨 일이 일어나고 있는지는 인식하고 있지 않는 상태다. 하지만 실험 초기 단계에서 연구팀이 보이저에게 시각적인 피드백을 줬더니 집이나 포털 건설도 학습 가능하게 됐다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사