알파제로 AI 진화 분석해보니 밝혀진 건…

이석원 기자

2021.12.02

알파벳 자회사인 AI 개발 기업 딥마인드(DeepMind)와 구글 AI 연구 부문인 구글브레인(Google Brain)이 체스 그랜드마스터인 블라디미르 크램닉(Vladimir Kramnik)과 협력해 인간에서의 체스 진화와 체스 AI 진화를 비교하는 프로젝트를 실시했다.

이 프로젝트에선 방대한 체스 데이터베이스인 체스베이스(ChessBase)에 저장되어 있는 기보나 알파제로(AlphaZero) 신경망 체스 엔진, 오픈소스 체스 엔진인 스톡피시(Stockfish) 다양한 구성 요소 등을 이용해 알파제로가 체스를 어떻게 학습해 나갈 것인지 연구하고 있다.

체스 엔진은 체스 전문가와 아마추어가 연구하는데 사용한 도구로 최근에는 알파제로를 비롯한 신경망을 이용한 강력한 체스 엔진이 등장하고 있다. 알파제로는 강화학습을 통해 독학으로 체스에 대해 학습할 수 있는 체스 엔진으로 대국을 통한 자기 학습으로 말 움직임이나 위치를 최덕화해 나갈 수 있다. 이 대국을 통한 자기 학습으로 체스 엔진은 통찰력이 가득한 조각 이동과 위치 평가를 할 수 있게 된다.

연구팀이 알파젤로에 있어 체스 향상 상태를 인간 가르침에 의한 체스 진화 역사와 비교한 결과 놀라운 패턴이 나타났다고 한다. 예를 들어 체스베이스 기보 데이터를 분석해 인간 체스 오프닝을 분석한 결과 1500년대에는 모두가 처음으로 e4를 가리키고 있었다고 하지만 이후에는 수세기에 걸쳐 d4, Nf3, c4라는 첫손이 유행하게 된 걸 알 수 있다.

한편 알파제로는 학습 시작 시점에선 완전 무작위로 첫 손을 가리키지만 자기 학습을 통해 초수를 최적화해나간다. 그 결과 자기 학습 시작 직후 단계에선 다양한 손을 가리키지만 점차 d4나 e4라는 첫손을 좋아하게 되는 걸 알 수 있다. 또 버전에 따라 알파제로는 4번째로 a6을 가리키는 경우가 많다고 한다.

체스 엔진 스톡피시는 자체 평가 함수를 갖고 있으며 이를 기반으로 조각 위치를 결정한다. 한편 알파제로는 이런 평가 함수를 갖고 있지 않고 조각 위치를 승리 보증은 +1, 패배 확실은 -1 2가지 택일로 평가한다. 이런 간단한 위치 평가 방법을 스톡피시 평가 함수 기반으로 분석하면 알파제로는 자기 학습 시간이 증가하면서 왕의 안전(King Safety)에 대한 중요성이 커진다.

자기 학습 시간 경과와 어떤 지표를 중시하는지 변화를 보면서 연구팀은 이 변화는 놀라울 정도로 인간과 똑같다고 밝히고 있다. 연구팀은 알파제로 손가락을 보고 이해할 수 있는 걸 찾는 건 훌륭하고 흥미로운 일이라면서 그렇지 않은 경우나 숙고하지 않으면 모른다는 일도 많다고 밝혔다. 물론 아직도 할 일이 많고 각 요소가 서로 어떻게 관련되어 있는지 모르지만 그럼에도 어느 정도 진보를 이룰 수 있다면서 다른 요소 의미를 이해할 수 있게 되기를 기대하고 있다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사