페이스북, 영어 없이 100개어 번역 시스템 개발

페이스북이 자동 기계번역을 이용해 플랫폼에 게시되는 거의 모든 콘텐츠를 사용자가 사용하는 언어로 번역할 수 있는 새로운 기계번역 시스템 M2M-100을 개발했다. M2M-100은 중간 언어로 영어로 통하지 않고 100개 언어를 직접 번역하는 기계번역 시스템이다.

페이스북에선 뉴스피드에서만 하루 200억 회에 달하는 번역을 제공하고 있다. 하지만 이 번역 시스템은 보통 중간 언어로 영어를 이용한다. 예를 들어 중국에서 불어로 번역한다면 먼저 중국어를 영어로 번역하고 다시 영어를 불어로 번역하는 절차를 거친다.

이 방법을 사용하는 건 영어와 다른 언어 번역 데이터세트가 방대하기 때문. 하지만 중간에 영어를 사이에 두는 탓에 전반적인 번역 정확도가 떨어지게 된다. 페이스북 AI 측은 전 세계에 영어 이외 언어를 사용하는 지역은 얼마든지 있기 때문에 사용하지 않는 사람 수요에 기계번역 시스템이 충족하는 게 중요한 과제라고 지적했다. 페이스북 플랫폼에선 매일 수십억 개에 달하는 게시물이 이뤄지고 있지만 게시물에 사용되는 언어는 160개에 달하며 전체 중 3분의 2 이상이 영어 이외 언어로 실시하고 있다.

따라서 페이스북은 중간 언어로 영어를 사용하지 않고 2개 언어를 직접 번역할 수 있는 새로운 기계번역 시스템인 M2M-100을 개발한 것. 페이스북은 M2M-100은 모두 100여 개 언어 세트를 임의 방향으로 직접 번역할 수 있는 첫 다국어 기계번역 모델이라고 주장하고 있다.

페이스북은 M2M-100을 개발하면서 100개 언어 75억 문장으로 이뤄진 방대한 데이터세트를 구축했다. 웹페이지를 크롤링할 커먼크롤(Common Crawl)을 이용해 텍스트 데이터를 수집한 다음 패스트텍스트(FastText)라는 텍스트 분류 시스템을 이용해 텍스트 언어를 지정했다고 한다.

번역 데이터는 인간 번역을 이용해 작성되는 게 많지만 영어와 타밀어를 말하는 번역기를 찾는 것보다 불어와 타밀어를 말하는 번역기를 찾는 게 훨씬 어렵다. 영어 이외 언어를 직접 번역하기 위한 데이터를 얻기 위해 연구팀은 LASER(Language-Agnostic SEntence Representations)라는 다국어 문장 의미에 따라 맵핑하는 도구를 이용했다.

페이스북은 또 언어 분류와 지리, 문화 유사성에 따라 언어를 14개 그룹으로 분류하는 전략도 도입했다. 같은 그룹에 속하는 언어는 더 자주 의사소통을 하는 경향이 있기 때문에 더 고품질 양방향 번역 데이터가 있다는 것이다. 물론 모든 언어가 인터넷에서 사용할 수 있는 많은 텍스트를 갖고 있는 게 아니기 때문에 연구팀은 단일 언어로 이뤄진 데이터에 주목했다. 페이스북 측은 중국에서 불어로 번역을 예로 들며 목표는 중국에서 불어로 번역하는 것이지만 어떤 이유로 충분한 데이터를 얻을 수 없는 경우 이를 개선하기 위해 불어 단일 언어 데이터를 이용하며 불어에서 중국어로 번역이라는 시스템을 역으로 훈련시킨다. 예를 들어 위키피디아에서 불어 데이터를 모두 확보하고 이를 중국어로 번역한다. 역번역을 해 얻은 새로운 텍스트를 데이터세트에 추가해 입출력 모두에서 사용할 수 있는 데이터가 늘어나 기계번역 시스템이 더 강력해지는 것이다.

이렇게 개발한 M2M-100은 기계번역 정확도를 측정하는 BLEU(Bilingual Evaluation Understudy) 점수에서 영어를 중간 언어로 이용한 기계번역 시스템을 10포인트 웃도는 결과를 보였다고 한다. 물론 여전히 M2M-100이 망라하지 않은 언어는 방대하며 나중에 모든 언어를 직접 번역할 수 있는 시스템 개발로 이어질지 여부는 아직 알 수 없다. 관련 내용은 이곳에서 확인할 수 있다.