테크레시피

마이크로소프트, 실시간 게임 환경 생성 AI 모델 출시

마이크로소프트가 4월 4일 플레이어 조작에 실시간으로 응답하고 게임 환경을 생성할 수 있는 AI 모델인 WHAMM(World and Human Action MaskGIT Model)을 출시했다. 이에 맞춰 1997년 출시된 슈팅 게임인 퀘이크2(Quake II)를 AI가 재현한 데모를 플레이할 수 있다.

데모 페이지에 들어가면 사용자가 18세 이상인 경우 동의(Agree)를 클릭하고 플레이를 시작한다. 실제 게임플레이 조작에는 상당히 큰 지연이 있어 쾌적하게 플레이하기 어렵다. 플레이할 수 있는 시간은 120초이며 제한 시간에 도달하면 게임 오버(Game Over)라고 표시된다.

이번에 마이크로소프트가 발표한 WHAMM은 지난 2월 발표된 WHAM(World and Human Action Model) 개선 버전이라 할 수 있는 AI 모델로 플레이어 조작에 맞춰 AI가 실시간으로 게임 화면을 생성하는 것이다. WHAM-1.6B는 1초에 1프레임만 생성할 수 있었던 반면 WHAMM은 초당 10프레임 이상을 생성할 수 있다. 따라서 플레이어 키보드나 컨트롤러 조작에 즉시 반응하는 실시간 묘사가 가능하다고 한다.

기존 WHAM에서는 대규모 언어 모델처럼 토큰을 하나씩 생성하는 모델링 방법을 채택했다. 하지만 이 모델링 방법에는 고품질이지만 생성에 시간이 걸린다는 과제가 있었다. 이에 마이크로소프트는 WHAMM에서 MaskGIT이라고 불리는 아키텍처를 채택했다. 이는 이미지 전체 토큰을 한 번에 생성하고 그 후 일부 토큰을 마스킹해 다시 예측・수정하는 방법으로 이 절차를 반복해 이미지 예측을 점차 세련되게 할 수 있다.

적은 계산 단계로 실시간 응답을 실현하기 위해 WHAMM은 이미지 전체 토큰 초기 예측을 생성하는 5억 파라미터 백본(Backbone) 트랜스포머와 초기 예측을 좁혀 정밀화를 수행하는 약 2억 5,000만 파라미터인 리파인먼트(Refinement) 트랜스포머를 채택하고 있다. 이를 통해 MaskGIT 단계를 여러 번 반복 실행할 수 있게 되어 더 좋은 최종 예측을 확실히 수행할 수 있다고 한다.

한편 마이크로소프트는 현 시점에서의 WHAMM 과제도 언급하고 있다. 먼저 적과의 상호작용. 적 캐릭터가 흐릿하게 표시되거나 전투 데미지 계산이 부정확하다는 등 문제다. 다음은 컨텍스트 길이. 현재 WHAMM 컨텍스트 길이는 10fps당 9프레임이기 때문에 0.9초 동안 시야에서 벗어난 적이나 오브젝트가 사라져 버리는 문제다. 이어 수치 정확성. 남은 체력 등 수치가 부정확해지는 문제. 다음은 범위 제한. WHAMM은 퀘이크2 일부분에서만 훈련되어 있기 때문에 영역 끝점에 도달하면 생성이 중지되어 버리는 문제가 있다. 마지막으로 지연. WHAMM을 누구나 시도할 수 있도록 웹브라우저를 통해 공개해 조작에 대한 지연이 발생하는 문제다.

마이크로소프트는 이 WHAMM 모델은 실시간으로 생성된 게임플레이 경험의 초기 실험이라며 이런 모델을 통해 어떤 새로운 인터랙티브 미디어가 실현 가능해질지 탐구하는 것에 흥분하고 있다고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독