中 AI 사전학습모델, 구글·오픈AI 모델 능가할까

중국 정부로부터 재정 지원을 받고 있는 베이징인공지능연구원(北京智源人工智能研究院)이 주도하는 연구팀이 지난 6월 1일(현지시간) 새로운 사전 학습 모델인 운다오 2.0(悟道2.0. WuDao 2.0)을 발표했다. 운다오 2.0은 1조 7,500억 개에 이르는 매개변수를 사용하고 있으며 이는 오픈AI(OpenAI)나 구글 산하 구글브레인(Google Brain)이 개발한 사전 학습 모델을 웃도는 수치라고 한다.

운다오 2.0은 비영리연구기관인 베이징인공지능연구원을 중심으로 여러 기관에 소속된 연구진 100여 명이 개발한 심층 학습 모델이다. 매개변수 개수는 1조 7,500억 개에 달하며 오픈AI가 2020년 6월 발표한 언어 처리 모델인 GPT-3 1,750억 개나 구글 브레인이 개발한 언어 처리 모델인 스위치 트랜스포머(Switch Transformer) 1조 6,000억 개라는 수치를 웃도는 것이라고 주장하고 있다.

매개변수는 기계학습 모델에 의해 정의되는 변수로 모델 진화를 위해 매개변수는 더 세련되고 정확한 결과를 얻을 수 있게 해준다. 따라서 보통 모델에 포함된 매개변수가 많을수록 기계학습 모델은 세련되어 지는 경향이 있다.

운다오 2.0은 4.9TB 텍스트와 이미지 데이터로 훈련되어 있으며 이 학습 데이터는 중국어와 영어 텍스트를 각각 1.2TB씩 포함하고 있다. 또 이미지 생성과 얼굴 인식 등 특정 작업에 특화된 심층 생성 모델과 달리 에세이와 시를 쓰고 정지 이미지에 따라 보충 문장을 생성하거나 문장 설명에 따라 이미지를 생성할 수도 있다고 한다.

연구팀은 거대한 데이터세트로 훈련된 이런 정교한 모델은 특정 기능을 사용할 경우 새로운 데이터 소량을 필요로 하지 않는다며 왜냐하면 인간처럼 한 번 학습한 지식을 새로운 작업에 전용할 수 있기 때문이라고 밝혔다. 운다오 2.0은 스마트폰 제조사 샤오미를 비롯한 22개 기업과 제휴한다고 한다.

연구팀은 대규모 사전 학습 모델은 범용 인공지능으로 향하는 최선의 지름길 중 하나라며 운다오 2.0이 범용 인공지능을 고려한 것이라는 점을 시사했다. 또 중국 정부는 베이징인공지능연구원에 많은 투자를 하고 있으며 2018년과 2019년에만 3억 4,000만 위안 자금을 제공했다. 미국 정부도 2020년 AI와 양자컴퓨팅에 1조원 투자를 발표하는 등 미중간 기술 경쟁이 격화되고 있다.

보도에선 운다오 2.0 발표에 대해 AI 성능에 있어 반드시 매개변수 수만 중요한 게 아니라 데이터세트량이나 내용도 중요하다고 지적하고 있다. 예를 들어 GPT-3은 불과 570GB 데이터로 훈련했지만 이 데이터는 사전 처리에 의해 45TB 데이터세트에서 추린 데이터였다는 것. 따라서 운다오 2.0이 보여준 수치는 인상적이지만 모델 성능에 그대로 생각하기 어려울 수도 있다는 주장을 하기도 한다. 관련 내용은 이곳에서 확인할 수 있다.