테크레시피

키보드‧마우스 조작해 게임 플레이 가능한 AI 프레임워크

최근 AI 성능이 비약적으로 향상되어 현실 세계 속 복잡한 시나리오에서 작업을 수행할 수 있는 AI 에이전트가 개발되고 있다. 하지만 이런 AI 에이전트는 여러 시나리오 간에 일반화된 작업을 수행할 때 자주 실패한다, 이는 환경별로 필요한 관찰과 행동 차이에 기인한다. 이에 중국 연구팀이 가장 통일된 인터페이스인 화면을 입력으로, 키보드와 마우스를 출력으로 사용해 마치 인간처럼 게임과 앱을 조작할 수 있는 AI 프레임워크인 크래들(Cradle)을 발표했다.

연구팀은 AI 에이전트를 다양한 시나리오 간에 일반화하기 위해 화면 입력에 대해 마우스와 키보드로 출력해 소프트웨어와 상호작용하는 GCC(General Computer Control)를 제안했다.

컴퓨터는 인간과 디지털 세계를 연결하는 가장 중요하고 보편적인 인터페이스이며 AI 에이전트가 조작할 수 있는 앱과 게임 등 소프트웨어를 제공하는 동시에 하드웨어 요구사항이나 고장과 같은 실제 로봇에 관련된 문제를 피할 수 있게 한다. 이런 가상 환경을 마스터하는 건 AI 에이전트를 일반화하는 방법으로 유망하다.

GCC를 달성하려면 화면을 통한 시각 정보의 적절한 이해와 그에 기반한 의사결정, 컴퓨터와 상호작용하기 위한 키보드와 마우스에 대한 정확한 제어, 복잡한 작업 수행을 위한 추론과 경험 유지, 더 나은 전략과 해결책을 자율적으로 발견하는 자기 개선 등 다양한 능력이 필요하다. 그리고 GCC를 향한 예비 시도로 개발된 게 대규모 언어 모델(LLM)을 활용한 AI 프레임워크인 크래들이다.

크래들 백본 모델로는 오픈AI GPT-4가 사용되며 1: 멀티모달 입력을 처리하는 정보 수집 모듈, 2: 과거 경험을 재고하는 자기 반성 모듈, 3: 다음에 수행할 최적의 작업을 선택하는 작업 추론 모듈, 4: 특정 작업과 관련된 기술을 생성하고 업데이트하는 기술 수집 모듈, 5: 키보드와 마우스를 통한 액션을 결정하는 액션 계획 모듈, 6: 과거의 경험과 기술을 저장하는 메모리 모듈 등 6개 모듈로 구성되어 있다. 이런 모듈을 통해 크래들은 다양한 작업을 수행하고 게임을 플레이하는 것도 가능하다고 한다.

크래들은 게임 플레이에서 NPC를 추적하기, 특정 장소로 이동하기 같은 단순한 작업에서는 상당히 높은 성공률을 보였다고 연구팀은 보고하고 있다. 반면 공간 인식이나 시간과 관련된 의사결정이 어려워 위험하고 구불구불한 길을 진행하기, 실시간 전투나 수색 작업 수행하기 같은 작업에서는 성공률이 낮아진다고 한다.

실제로 크래들이 게임을 플레이하는 모습은 유튜브에 올라온 여러 동영상에서 확인할 수 있다. 오픈 월드 액션 게임인 레드 데드 리뎀션(Red Dead Redemption) 2를 크래들이 플레이한 동영상에서는 크래들이 40분이 걸리는 미션 하나를 성공시킬 수 있었다고 한다.

도시 개발 시뮬레이션 게임인 시티스 : 스카이라인(Cities: Skylines)을 크래들이 플레이한 동영상도 있다. 크래들은 수도관 연결에 실패해 시내에서 물 부족이 발생하는 등 실수를 범했지만 사용 가능한 구역을 주거, 상업 시설, 공업 지대로 커버하는 데에는 성공했다고 보고됐다.

또 슬로 라이프 체험 게임인 스타듀밸리(Stardew Valley) 플레이 동영상도 있다. 크래들은 오브젝트 조작이나 캐릭터와의 대화에 어려움을 겪었지만 파스닙을 수확하는 데 성공했다.

크래들은 게임 뿐 아니라 크롬에서 논문 다운로드하기, 크롬에서 엑스에 포스팅하기, 크롬에서 페이지 열고 닫기, 아웃룩에서 특정 메일 찾기, 아웃룩에서 답장하기 등 작업에서도 일정한 성공률을 기록했다. 하지만 크롬이나 아웃룩 같은 표준적인 GUI에서도 특정 UI를 인식하지 못하거나 시각적 컨텍스트를 놓치는 경우가 있었고 기타 비표준적인 소프트웨어에서는 성공률이 더 낮아졌다고 한다.

연구팀은 크래들은 AI 에이전트가 내장 API에 의존하지 않고 이렇게 다양한 환경에서 성공할 수 있게 하는 첫 프레임워크라며 아직 크래들은 특정 작업에서 어려운 상황에 직면하기도 하지만 프레임워크 추가 확장과 LLM 진보를 결합해 컴퓨터 제어 작업 전반에 걸쳐 더 강력한 LLM 기반 범용 에이전트를 개발하기 위한 선구적 연구로 도움이 될 것이라고 말했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독