테크레시피

FPS 게임 도전한 AI ‘다시 인간을 넘다’

구글 산하 딥마인드(DeepMind)는 몇 년 전 알파고(AlphaGo)를 선보여 이세돌 9단과 세기의 대결을 펼쳐 우리나라 뿐 아니라 전 세계적으로 인공지능에 대한 관심을 불러 모은 기업이다.

딥마인드는 이후 알파고를 꾸준히 개선해 지난해 알파고 제로(AlphaGo Zero)를 선보였다. 알파고 제로는 더 이상 인간이 바둑을 가르치지 않아도 AI끼리 대결을 펼치면서 학습을 한다. 알고리즘을 크게 개선해 기존 알파고를 100:1로 이기는 수준에 도달했다.

알파고 제로는 스스로 바둑 두는 방법을 배우고 이를 기억한다. 스스로 반복 학습할 수 있는 능력을 갖춰 수천만 회에 달하는 훈련을 알아서 할 수 있는 것. 기존 알파고는 인간이 둔 대국 데이터를 대량 학습하도록 해 승리를 위한 패턴을 학습한 것이었던 만큼 인간의 사고 방식을 배웠다고 할 수 있다. 하지만 인간의 손을 빌리지 않고 말 그대로 제로 상태에서 바둑 학습을 한 알파고 제로는 인간이 정석이라고 말하는 영향을 전혀 받지 않은 상태에서 바둑을 학습, 기존 AI를 넘어선 것이다.

알파고 제로는 먼저 바둑에 대한 기본 규칙만 배우고 나면 나머지는 알아서 직접 대국을 반복해가며 배운다. 학습 3일 이후에는 기존 알파고를 넘어설 수준에 도달했다고 한다. 알파고 제로는 학습 21일이 넘어선 이후에는 온라인상 대결에서 60명을 이긴 알파고 마스터를 웃돌았다. 40일이 지나고 난 뒤에는 현존하는 모든 알파고 버전을 넘어서 자율 학습만으로 이기는 방법을 완전히 섭렵했다. 이는 강화학습을 이용한 것으로 승리에 대한 보상을 주면서 신경망이 이기는 방법을 배워나가도록 한다. 알파고 제로는 서로 대전을 하면서 노하우를 쌓고 여기에 이기는 방법을 기억하는 과정을 반복한다. 인간이 갖고 있는 지식의 한계를 넘어설 가능성을 보여준 것이다. 쉽게 말해 상식에 얽매이지 않는 승리를 위한 방법을 배운다는 것이다.

알파고 제로는 기존 버전과 달리 바둑판에 놓인 흰돌과 검은돌에 대한 바둑돌 정보만 받는다. 기존 알파고는 정책 네트워크와 가치 네트워크를 이용했지만 알파고 제로는 이를 하나로 통합해 효율적으로 학습하고 평가할 수 있도록 했다. 또 대전 중 어떤 방식이 더 유리한지 파악하기 위해 무작위로 돌을 두는 기술도 이용한다. 이를 통해 알파고 제로는 기존 알파고보다 훨씬 효율적인 학습을 하고 결과를 도출해낸다. 알파고 제로는 전용 프로세서, TPU도 기존보다 더 적은 수만 있어도 학습할 수 있어 소비전력까지 크게 줄일 수 있었다고 한다.

딥마인드는 여기에서 멈추지 않고 이후 알파제로(AlphaZero)를 선보이며 바둑 외에 보드 게임까지 섭렵했다. 알파제로는 알파고를 바탕으로 개발한 것. 4시간 학습만으로 세계에서 가장 강하다는 오픈소스 체스 엔진인 스톡피시(Stockfish)를 가볍게 제꼈다. 100번 대국을 하는 동안 알파제로는 28승을 거뒀고 무승부 72회를 기록했다고 한다. 알파제로 역시 알파고 제로처럼 인간의 게임 진행 방식을 배우지 않고 AI가 알아서 승리하는 방식을 배운다. 알파제로는 강화학습을 이용하기 때문에 정석 같은 전문 지식을 배우게 할 필요가 없다. 알파제로는 다음 수를 1초 안에 8만 개나 가정하지만 스톡피시는 1초에 7,000만 개에 달한다고 한다.

알파제로는 전문 지식 없이 24시간 안에 체스 같은 게임에서 초인적인 능력을 발휘할 수 있게 됐다. 알파제로는 2시간 학습만 한 뒤에는 세계에서 가장 강한 장기 프로그램이라는 엘모(elmo)에 승리를 거뒀다고 한다.

딥마인드는 이번에 1인칭 슈팅 게임 FPS 경기에서 인간을 넘어설 수 있는 AI인 FTW(For the Win)를 개발했다. 그냥 적만 이길 수 있는 게 아니라 인간 팀원과 협력해 멀티 게임까지 즐길 수 있다고 한다.

물론 지난 2017년 오픈AI(OpenAI)를 이용한 인공지능이 도타2(Dota 2)에서 인간에 승리를 거둬 화제가 되기도 했다. 이 AI는 1:1 대결을 펼쳤다. 자율 학습형 기술을 통해 모방이나 트리 탐색 같은 건 이용하지 않고 직접 게임을 해가면서 자신의 게임 스타일을 학습, 서서히 능력을 끌어올리는 강화학습 방식을 택한 것이었다. 딥마인드 역시 스타크래프트2용 AI를 연구 중이라고 밝히기도 했다.

이번에 딥마인드가 선보인 FTW는 1999년 출시된 게임인 퀘이크3 아레나를 이용한 데모를 선보였다. 퀘이크3은 깃발 잡기 게임처럼 팀을 이뤄 상대방 깃발을 빼앗는 방식 대전도 펼친다. FTW는 이 과정에서 인간과 팀을 이뤄 대결하는 걸 목표로 학습을 진행했다고 한다.

깃발 뺏기 자체는 상대방 진영에서 깃발을 자기 진영으로 가져오면 승리하는 간단한 방식 같지만 순간순간 상황에 따른 움직임은 복잡하다. 맵도 같은 곳을 쓰는 게 아니라 경기를 할 때마다 바뀐다. 이런 이유로 GTW는 맵 레이아웃을 기억하는 게 아니다. 또 AI를 인간처럼 성장시키려면 기존 게임용 AI처럼 게임 내에서 매개변수를 직접 읽어들이는 게 아니라 인간처럼 화면 픽셀을 인식해야 한다.

딥마인드 측은 인간 게이머 40명과 FTW 30개를 랜덤 매칭, 45만 회가 넘는 학습 과정을 거쳤다. 이 과정에서 신경망이 형성되고 게임 진행을 통한 동기 부여를 피드백, 수준을 끌어올렸다.

FTW의 성장 상태를 보여주는 그래프를 보면 가로축은 게임 횟수, 세로축은 게이머의 강한 정도를 나타내는 수치다. 하늘색 선이 FTW의 수준 향상치를 보여주는 것. 15만 회가 넘어서면서 이미 인간 평균 게이머 수준을 넘어서고 45만 회 정도가 되면 최고 점수를 기록한다.

FTW는 깃발 뺏기에서 팀 진지를 방어하고 상대방 진지를 제압한다는 것 뿐 아니라 (인간을 포함한) 동료를 지원한다는 것까지 습득한다. 인간과 협력을 하는 행동까지 학습할 수 있게 됐다는 얘기다. 이런 인간과 인공지능이 서로 협력하게 하는 건 강화학습 등을 통해 얻은 것이다. 강화학습을 집단 수준 교육 방식으로 개선하고 인간과 한 팀을 이룰 수 있는 AI 에이전트 개발이 이 프로젝트의 목표이기도 하다.

딥마인드의 목표는 인공지능 기술로 인류가 직면한 문제를 해결한다는 것이다. 의료 분야에 인공지능을 적용해 난치병 조기 발견을 한다든지 전력 수요 조절에도 활용할 수 있다. 방대한 데이터 중에서 통찰력을 이끌어내는 데이터마이닝 분야도 마찬가지다. 이런 점에서 인공지능에 대한 부정적 의견도 많지만 딥마인드 CEO인 데미스 하사비스는 인류에 긍정적 영향을 주게 될 것이라고 강조한다.

인공지능이 언제 인간의 수준을 넘어설 것이냐는 과학자를 대상으로 한 조사 결과를 보면 2024년 통역, 2027년 트럭 운전, 2031년 영업 사원 대체, 2053년에는 외과 의사 대체가 가능할 것이라는 예측이 나오기도 했다. 이 같은 발전이 실제로 이뤄진다면 인간의 노동력이 초점을 맞춰야 할 부분까지 바뀌게 될 수도 있다. 지금 딥마인드를 통해 지켜보고 있는 바둑, 보드게임에 이은 FPS 게임에서의 인간 추월은 지금 당장은 그저 게임에서 보는 찻잔 속 태풍으로 보일 수도 있다. 하지만 이 같은 변화는 조금씩 현실 속으로 다가오고 있는 건 분명하다.

추천기사