규칙 몰라도 이기는 방법 습득하는 AI

인공지능 기업인 딥마인드(DeepMind)가 규칙 지식이 제로인 상태에서 바둑과 장기, 체스 등 이기는 방법을 스스로 배워나갈 수 있는 AI를 발표했다. 뮤제로(MuZero)라고 명명한 AI는 스스로 생각하는 AI를 위한 큰 걸음이라고 할 수 있다.

딥마인드가 개발한 인공지능인 알파고(AlphaGo)는 세계 최고 기사인 이세돌 9단에게 승리를 거둬 이름을 알린 바 있다. 바둑에도 압도적인 힘을 발휘한 알파고지만 불확실성이 높은 문제를 해결할 수 없어 규칙이 뚜렷하지 않은 현실 문제를 해결하는 데에는 적합하지 않다는 지적을 받아왔다.

딥마인드가 새로 발표한 뮤제로는 이 같은 알파고의 과제를 해결하려는 새로운 접근 방식이라고 할 수 있다. 알파고와 알파고 제로, 알파제로, 뮤제로의 차이를 보면 알파고는 바둑만 플레이하고 인간 데이터와 바둑 지식, 바둑 규칙 등을 미리 배울 필요가 있다. 이에 비해 뮤제로는 바둑과 체스, 장기, 아타리(Atari) 등에 대한 사전 학습 없이 자율 학습을 통해 최적의 솔루션을 이끌어낼 수 있다.

뮤제로 개발에 아타리를 이용한 건 플레이어가 정교한 전략을 세우는 작업이 풍부하고 게임 점수 등 단순한 진행 지표를 제공하기 위한 것이라고 설명하고 있다. 뮤제로의 목표는 특정 문제 해결을 위한 교육 뿐 아니라 문제에 대해 인간의 생각과 비슷하게 AI를 훈련시키는 것이라고 한다.

구체적으로 말하자면 뮤제로는 학습된 모델을 사용하지 않고 3가지 요소를 모델링한다. 현재 포지션은 얼마나 좋은지에 대한 값, 어떤 행동이 최선인지를 따지는 정책, 마지막 액션이 얼마나 뛰어난 것인지를 따지는 보수가 그것이다.

뮤제로는 특정 동작을 취하거나 계획할 때 무슨 일이 일어날지를 3가지 요소를 이용해 신경망에서 학습하고 이해한다. 딥마인드 측은 뮤제로 이전에도 아타리를 플레이하는 인공지능을 개발했지만 뮤제로는 이보다 높은 성능과 바둑, 체스, 장기의 경우에는 알파제로 성능에 필적한다고 설명하고 있다.

연구팀은 이번 연구 결과가 문제 해결 능력이 더 뛰어난 AI 개발을 위한 중요한 단계가 될 것으로 기대하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

DeepMind MuZero

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기