숨바꼭질 반복한 AI로 복잡한 전략을 만들려는 시도

오픈에이아이(OpenAI)는 기계학습 에이전트가 간단한 숨바꼭질을 하게 해 점점 복잡한 도구를 이용할 수 있게 진화해 나가는 모습을 관찰하고 있다. AI는 숨바꼭질을 반복하면서 스스로 6가지 전략과 이에 대한 대책을 다듬는다. AI가 독자적으로 이렇게 복잡한 협조 적응을 보인 건 앞으로 더 복잡하고 지적인 동작을 할 가능성을 시사하고 있다는 것이다.

숨바꼭질에선 AI가 숨기는 역할과 귀신 역을 모두 맡는다. 숨기는 역할은 파란색, 귀신 역은 빨간색으로 표시한다. 숨기는 역할은 귀신 역 시야에서 보이지 않는 움직임을, 귀신 역은 시아에 숨어 있는 걸 파악하기 위해 움직인다. 숨바꼭질에 대한 자세한 내용은 일절 입력되어 있지 않고 반복하며 술래잡기를 하면서 숨바꼭질을 하는 지역은 숨기고 쓸 만한 개체가 일부 배치되어 있으며 실제 숨바꼭질 환경을 사실감 있게 재현하고 있다.

숨기는 역할과 귀신 역할 주위 객체와의 거리는 측정할 수 있으며 귀신 역이 숨기는 역할을 할 때에는 시선이 빔과 같이 표시된다. 에이전트에 입력 없이 숨바꼭질을 시키면 처음에는 완전히 무작위로 움직이지만 숨바꼭질 횟수가 269만 회에 도달하면 숨기는 역할은 객체 그림자에 숨어 있고 귀신 역은 숨기는 역할을 쫓는다. 860만 회가 되면 개체를 운영하는 방법을 배우고 입구에 개체를 고정할 수 있다. 또 객체는 숨기는 역할만 고정 가능하며 일단 고정 블록은 숨기는 역할이 달릴 때까지 그 자리에 있다.

입구 부분에 개체를 고정하면 귀신 역은 숨기는 역할을 찾을 수 없다. 하지만 862만 회에서 1,450만 회까지 되면 숨바꼭질 중 귀신 역이 삼각기둥 형 객체를 이동해 경사면을 이용해 방안에 숨겨진 건 발견할 수 있게 된다. 1,450만 회에서 4,340만 회 사이 숨기는 역할은 귀신 역이 슬로프를 이용하지 않게 스스로 숨는 방안을 배운다.

벽이 거의 없는 환경에서 2,200만 회까지 귀신 역을 숨기는 역할을 쫓는 걸 배운다. 2,200만∼8,800만회까지 판을 교묘하게 이용해 쉼터를 형성하는 방법을 학습한다. 반면 8,800만회에서 1억 1,500만회까지 귀신 역이 슬로를 이용하는 방법, 새로운 대응책인 슬로프를 고정하는 방법은 1억 1,500만회에서 3억 8,800만회까지 짜낸다.

슬로프가 고정되어 버려 절체절명이라고 생각했지만 귀신 역할은 입방체를 움직여 슬로프 옆으로 이동하고 슬로프에서 입방체에 탄다. 입방체 위에 탄 채로 이동하고 대피소 안쪽에 숨기는 역할을 발견한다. 이 입방체를 타고 서핑하는 방법은 숨바꼭질을 3억 8,800만회에서 4억 5,800만회 시행하면서 숨기는 역할은 모든 개체를 고정하고 대피소를 형성한다. 이런 상태로 숨기는 역할이 새로운 방법을 찾으면 귀신 역할은 이에 대한 공략법을 만들고 이를 반복해 고급 숨바꼭질이 태어나는 것이다.

복잡한 환경을 탐색하는 듯한 작업은 인간이 AI 행동을 디자인해서 설정해야 할 사항이 너무 많아 에이전트가 정교한 움직임을 만들어내는 건 상당히 어렵다. 하지만 실험대로 AI 모델을 학습시키면서 다른 역할을 분담시켜 경쟁하도록 해 AI가 알아서 유용한 기술을 낳을 가능성이 있다고 할 수 있다.

오픈에이아이는 이번 결과는 더 자유롭고 다양한 환경에서 여러 에이전트를 이용한 방법은 상당히 복잡하며 인간과 관련한 행동을 이끌어낼 수 있다는 자신감을 줬다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.