테크레시피

AI 만난 그란투리스모 “세계 챔피언 이겼다”

소니 AI가 심층강화학습을 이용한 그란투리스모 소피(gran-turismo sophy)를 발표했다. 그란투리스모 소피는 드라이빙카 라이프 시뮬레이터인 그란투리스모 스포츠를 글로벌 수준에서 플레이할 수 있도록 학습되어 있어 연구팀은 세계 최고 게이머와 직접 대결에서 이겼다고 밝히고 있다.

그란투리스모 소피는 2020년 4월 소니 AI 설립 이후 진행된 프로젝트 하에서 그란투리스모 시리즈를 개발하는 SIE와 협력하면서 개발했다. 학습에는 보상이나 패널티를 줘서 자율 학습을 촉구하는 강화학습을 채택했다.

그란투리스모는 자동차 경주를 즐길 수 있는 게임이지만 현실감을 추구한 드라이빙 시뮬레이터로서의 측면도 갖추고 있는 게 특징이다. 레이싱 게임에선 차량 성능을 극한까지 끌어올리는 드라이빙 기교가 요구되지만 그란투리스모에선 여기에 더해 공기 저항 등 영향도 가미하기 때문에 다른 게이머가 어떻게 플레이하고 있는지가 중요하다.

더구나 브레이크를 걸거나 가속을 밟는 타이밍이나 상대방을 쫓는 척하는 등 전술적인 포인트도 요구된다. 또 룰을 지킨뒤에 페어플렝이에 노력하는 것도 중요하다. 다시 말해 그란투리스모 소피는 컨트롤, 레이싱 스킬, 레이싱 에티켓 3가지를 축으로 학습을 거듭했다는 것이다.

소니AI는 그란투리스모 소피는 체스와 장기, 바둑 또는 실시간 멀티플레이어 전략 비디오 게임을 위한 알파스타(AlphaStar), 오픈AI 파이브(OpenAI Five)와 같은 이전 AI 에이전트와는 다르라며 단지 전략과 전술 뿐 아니라 연속적인 물리 현상을 다루는 AI라고 한다.

그란투리스모 소피는 그란투리스모 스포츠에서 특정 자동차와 코스에서 학습을 계속했다. 그란투리스모 소피는 단체로 달리는 레이싱도 있어 일반 게임에 등장하는 컴퓨터 대전 상대와 최대 7명으로 레이싱을 실시하는 일도 있었다고 한다. 코스 위치나 출발 속도, 차간거리, 대전상대방 스킬 레벨은 레이싱마다 랜점으로 설정됐다.

연구팀은 그란투리스모 소피가 지난 레이싱보다 코스를 잘 달릴 때 보상을 줬고 다른 차를 추월할 경우 추가 보상을 줬다. 한편 코너를 돌 수 없거나 벽에 부딪치거나 슬립, 다른 대전 상대 차량과 부딪치거나 하면 패널티를 부과했다.

코스를 달리는 방법을 기억하기 위해선 몇 시간 트레이닝이 필요했다고 하지만 그란투리스모 소피는 며칠 안에 그란투리스모 스포츠 게이머 95%보다 능숙하게 됐다고 한다. 4만 5,000시간 주행을 거친 결과 학습에 이용한 코스 3개로 초인적인 결과를 보였다고 한다.

더구나 그란투리스모 스포츠로 세계 일류 플레이어 3명을 초대해 그란투리스모 소피와 대전했는데 누구도 혼자서 그란투리스모 소피를 이길 수 없었다고 한다. 예를 들어 그란투리스모 소피는 드래곤 트레일 시사이드라는 코스에서 세계 일류 레벨 기록을 가진 에밀리 존스조차 몰랐던 레이싱 라인을 보였다고 한다. 그는 첫 코너 진입에서 그란투리스모 소피보다 느린 타이밍에 브레이크를 걸었지만 그란투리스모 소피가 훨씬 더 나은 주행을 보이고 다음 코너에서 자신을 추월했다고 밝혔다. AI 주행을 볼 때까지는 이런 사실을 깨닫지 못했다고.

레이크 마조레 서킷에선 인간 플레이어가 랩타임 114.466초였던 반면 그란투리스모 소피는 114.249초였다. 플레이어는 게임 이후 AI 주행을 분석한 뒤 랩탕임을 114.181초로 줄일 수 있었다고 한다.

또 2021년 7월에는 톱 레벨 레이서 3명을 초대해 그란투리스모 소피와 레이싱을 벌였지만 결과는 86:70으로 인간팀이 승리했다. 하지만 2021년 10월에는 그란투리스모 소피 트레이닝법을 바꾼 결과 52:104로 그란투리스모 소피팀이 압승했다고 한다. 연구팀은 심층 강화 학습을 이용한 레이싱 AI 학습 방법 장점은 적절한 조건인 한 에이전트가 시행착오하면서 올바른 행동을 학습한다고 밝혔다.

하지만 연구팀은 전략적 의사 결정에는 개선 여지가 있다고 지적하고 있다. 예를 들어 그란투리스모 소피는 코스가 곧바로 있을 때 상대방을 가능한 한 쫓아내려고 한다. 하지만 다음 코너에서 브레이킹으로 쫓겨 버리는 일이 자주 있었다고 한다. 또 타임 패널티로 피트인하는 차가 있는 경우 보통 패널티를 받은 차 감속하는 걸 기다리지만 그란투리스모 소피는 추격하려고 한다고 한다.

소니AI는 그란투리스모 소피는 중요한 이정표를 달성했지만 아직 연구 개발 초기 단계에 있다. 그란투리스모 시리즈에 그란투리스모 소피를 어떻게 반영할 수 있을지도 검토할 예정이다. 앞으로 게임 내에서 플레이어가 그란투리스모 소피와 대전할 가능성도 시사하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독

Most popular