테크레시피

상대방 모든 행동 확률까지…페북이 개발한 포커AI

페이스북 AI 개발팀이 포커 플레이를 할 수 있게 해주는 AI인 레벨(ReBeL)을 발표했다. 레벨은 게임에 참여하는 플레이어가 취할 수 있는 행동 가능성을 고려해 지금까지 AI가 서투르던 종류 게임에서도 높은 성능을 발휘하고 미래에는 부정행위 탐지와 사이버 보안 분야 등 실제 세계에서 활약을 기대할 수 있다고 한다.

게임이론 게임은 체스 등 플레이어가 서로의 의사 결정 내용과 게임 전개를 완전히 파악할 수 있는 완전 정보 게임과 플레이어별로 자신의 패를 숨기는 포커 같은 불완전한 정보 게임으로 분류된다. 2016년 구글 AI 알파고(AlphaGo)가 바둑 기사 이세돌 9단에 승리할 당시 인류가 아직도 AI에 뒤지지 않은 유일한 보드 게임으로 바둑에서 AI가 승리하는 등 AI는 완전 정보 게임을 자랑으로 삼는다.

알파고 승리 3년 뒤 2019년에는 페이스북과 카네기멜론대학이 공동 개발한 AI인 플러리버스(Pluribus)가 6명 포커 프로 선수를 막는 등 AI는 불완전 정보 게임에서도 인간을 상회하게 됐지만 완전 정보 게임에 비하면 아직 서툴다는 것.

페이스북 AI 연구팀에 따르면 AI가 불완전 정보 게임을 서투르게 하는 건 AI가 가진 강화학습과 검색을 결합한 알고리즘이 불완전 정보 게임에선 작동하지 않기 때문이라는 것.

알파고 등이 채택한 강화학습+검색 알고리즘은 특정 작업이 선택될 확률에 관계없이 액션별 고정값을 할당해 계산해버리는 경향이 있다. 체스 같은 게임은 플레잉너가 자주 사용하는 수 하나가 아닌지에 관계없이 묘수는 묘수, 악수는 악수이기 때문에 이 문제는 그다지 표면화하지 않는다. 하지만 포커에선 허풍을 자주 사용하면 허세가 읽어 버리게 특정 작업 가치는 사용 빈도에 따른 작업이 선택될 확률이 중요해지고 있다.

페이스북이 새롭게 발표한 AI인 레벨은 플레이어마다 가질 수 있는 다양한 신념 확률 분포를 계산하고 행동을 결정하도록 했다. 그 결과 레벨은 포커에서 가장 인기 있는 규칙인 텍사스 홀덤에서 카네기멜론대학이 개발한 포커 AI 베이비 타르타니안8(Baby Tartanian8) 등 2개 포커 AI를 치고 인간 톱 플레이어를 웃도는 성과를 서두는데 성공했다. 또 상대방의 거짓을 간파하는 게 요구되는 주사위 게임인 포커다이스(Liar’s dice)에도 내시균형(Nash’s equilibrium)에 가까운 결과를 보여 포커 이외에 불완전 정보 게임에서도 강점을 보여줬다.

연구팀은 레벨이 지금까지 AI에 비해 주어진 정보가 훨씬 적은 상황에서도 초인적인 걸음이며 부정행위 감지와 사이버 보안 같은 현실 세계에서 활약하는 AI 개발을 향한 전진이라고 생각한다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.