구글 연구자 4명으로 구성된 팀이 게임 엔진으로 기능하는 AI 모델인 게임엔진(GameNGen) 논문을 발표하고 실제로 FPS 게임 둠(Doom)을 플레이하는 영상을 공개했다.
연구팀에 따르면 게임엔진은 단일 TPU에서 둠을 시뮬레이션할 수 있으며 초당 20프레임 이상 프레임 레이트를 달성했다고 한다.
아무것도 없는 곳에서 적이나 탄약이 나타나거나 파괴된 오브젝트가 다시 나타나는 등 생성형 AI 특성이 엿보이는 장면이 있지만 총을 쏘면 남은 탄약 수가 줄어들거나 맵에 놓인 방어구를 획득하면 방어력 수치가 상승하는 등 게임으로서 정상적으로 플레이할 수 있는 모습도 보여준다.
모델 구조는 기본적으로 강화 학습 에이전트를 사용해 게임을 플레이하게 하고 대량 입력 및 게임 플레이 데이터를 수집한다. 그런 다음 스테이블 디퓨전(Stable Diffusion) v1.4를 기반으로 입력과 프레임 시퀀스에 따라 조건을 부여한다.
트레이닝 중 인코딩된 프레임에 가우스 노이즈를 추가해 일부러 컨텍스트 프레임을 손상시켜 모델은 이전 프레임에서 샘플링된 정보를 수정하고 시각적 안정성을 장기간 유지할 수 있도록 훈련됐다.
이렇게 훈련된 게임엔진 모델은 다음 프레임 예측에서 이미지 간 차이도를 나타내는 PSNR이라는 지표에서 비가역 JPEG 압축과 동등한 수치인 29.4를 달성했다. 또 게임엔진을 사용한 플레이 영상과 실제 게임 플레이 영상을 각각 임의로 3.2초만큼 잘라내어 사람 평가자가 어느 쪽이 실제 게임인지 추측하게 했을 때 정답률이 60%에 그쳤으며 이는 게임엔진이 높은 정확도 영상을 생성할 수 있다는 걸 보여준다. 관련 내용은 이곳에서 확인할 수 있다.