
구글 딥마인드 연구팀이 인기 게임 소프트웨어 마인크래프트에서 다이아몬드를 채굴할 수 있는 AI 알고리즘인 드리머V3(DreamerV3)를 개발했다고 발표했다. 주변 환경에서 특정 지식을 얻고 그 지식을 응용할 수 있다는 점에서 뛰어나다고 개발자는 말하고 있다.
개발자에 따르면 드리머V3는 주변 환경을 학습하고 미래 시나리오를 상상해 동작을 개선하는 알고리즘이라고 한다. 인간 행동을 나중에 학습시키지 않아도 AI 스스로 주변 환경에 맞는 행동을 취할 수 있게 됐다.
연구팀은 마인크래프트에서 다이아몬드를 채굴하게 한 건 후에 추가된 것이라며 특별히 마인크래프트를 염두에 두고 개발한 건 아니지만 테스트 환경으로 사용하기에는 이상적이라고 생각했다고 말했다.
마인크래프트에서는 플레이어가 숲, 산, 사막, 늪지 등 다양한 지형 속을 탐색하게 된다. 이 중에서 얻을 수 있는 아이템 중 하나가 다이아몬드다. 다이아몬드를 얻으려면 목재나 돌 등 재료를 모아 도구를 만들고 해당 도구를 사용해 더 상위 재료를 모아 또 도구를 만드는 등 작업을 반복해야 한다.
연구팀은 게임 시작부터 다이아몬드를 획득할 때까지 12개 마일스톤을 설정하고 마일스톤 하나에 도달할 때마다 +1 보상을 주는 프로토콜을 설정했다. 이 설정으로 드리머V3에 기반해 구축한 AI에 게임을 플레이하게 한 뒤 플레이어가 사망했을 때 또는 3만 6,000스텝 후마다 게임을 리셋하고 AI가 한 특정 동작에 익숙해지는 게 아니라 보상을 얻기 위한 기본 동작을 배우도록 유도했다.
Excited to share that DreamerV3 has been published in Nature!
— Danijar Hafner (@danijarh) April 2, 2025
Dreamer solves control tasks by imagining the future outcomes of its actions inside of a continuously learned world model
It's the first agent to find diamonds in Minecraft from scratch without human data!pic.twitter.com/EGNLmBTmAE
이 설정으로는 다이아몬드를 처음 채굴할 수 있을 때까지 AI는 9일 동안 계속 플레이해야 한다고 한다. 긴 시간이 걸리고 있지만 미지의 환경에 놓인 AI가 스스로 동작을 배우고 태스크를 해결하는 처리를 할 수 있다는 점에서 뛰어나다.
지금까지도 AI에게 마인크래프트의 다이아몬드를 채굴하게 하려는 시도는 존재했지만 인간 플레이 영상을 학습시키거나 인간이 단계적으로 어시스트하는 게 보통이었고 새로운 영역 지식을 제로부터 학습시키는 형태로 AI에게 다이아몬드를 채굴하게 하는 건 불가능했다. 이 점에서 연구팀은 드리머V3를 인간 데이터 없이 마인크래프트 다이아몬드를 제로부터 찾을 수 있는 세계 첫 에이전트라고 평가하고 있다.
한편 연구팀은 아타리(Atari) 게임 등에서도 드리머V3를 작동시켜 각각 환경에 맞는 태스크 해결 능력을 보여주는 걸 실증했다. 연구팀은 드리머V3 능력은 비디오 게임보다 시행착오 비용이 훨씬 높은 현실 세계에서의 상호작용을 학습하는 로봇에도 응용할 수 있을 것이라고 말했다. 한편 앞으로는 마인크래프트 보스 엔더 드래곤을 물리치는 걸 목표로 한다고 한다. 관련 내용은 이곳에서 확인할 수 있다.