테크레시피

아프리카어 수천개를 기계번역하려는 프로젝트

마사카네(Masakhane)는 아프리카 AI 연구자와 엔지니어가 모여 기계번역을 이용해 아프리카에 있는 2,000개가 넘는 여러 언어를 번역하려는 오픈소스 프로젝트 시도다.

아프리카 대륙에서 쓰이는 언어는 영어와 불어, 아랍어 방언 등이 알려져 있지만 그 밖에 아프리카 부족이 예전부터 써온 언어도 많다. 아프리카 대륙에 존재하는 언어는 2,000개 이상으로 다양한 탓에 커뮤니케이션이나 상거래에 장애가 될 수도 있다.

마사카네를 시작한 남아프리카 AI 연구자는 제이드 애보트(Jade Abbott)와 라우라 마르티노(Laura Martinus)다. 이 프로젝트는 아프리카 전역 AI 연구자, 데이터 과학자와 협력해 이뤄지고 있다. 이들은 2019년 기계학습과 자연어 처리 관련 콘퍼런스에서 만나 아프리카 언어를 기계학습 모델로 번역하는 프로젝트를 논의한 뒤 마사카네를 시작했다. 마사카네라는 프로젝트명은 줄루어로 우리 함께 만드는이라는 의미다.

마사카네로 기계번역이 가능한 언어는 아프리카 내 다양한 고유 언어 뿐 아니라 나이지리아 피진 영어와 북아프리카, 중앙아프리카에서 쓰이는 아랍어 방언도 포함되어 있다. 이런 언어에는 유럽 언어와 달리 특정 벤치마크와 큰 데이터세트가 존재하지 않는다. 따라서 마사카네는 다른 그룹, 언어학자와 협력해 언어 데이터세트를 만들어 시작할 예정이다.

다양한 아프리카 언어를 기계 번역할 수 있다면 아프리카인에게 다양한 혜택을 확대할 수 있을 것으로 기대하고 있다. 마사카테에 현재 참여한 개발자는 아프리카 전역에서 60명 가량이다. 남아프리카공화국과 케냐, 나이지리아 개발자가 그 중에 많은데 참여자는 자신의 모국어로 데이터를 수집하고 모델 교육을 실시하고 있다.

예를 들어 케냐 루히야족 출신 엔지니어는 부족끼리 얘기할 때에는 루히야어를 이용한다. 하지만 케냐에선 학교를 비롯한 공공장소에선 영어를 이용한다. 일상에선 부족마다 다른 언어를 사용하기 때문에 커뮤니케이션 격차가 발생하는 것. 기계학습을 이용해 아프리카 언어를 번역하면 아프리카에서 AI 활용을 성장시키는 게기가 되고 아프라카인이 AI를 생활에 활용할 움직임이 촉진될 수 있다. 마사카네 같은 아프리카 대륙 전역에 걸친 프로젝트는 아프리카 개발자와 연구자의 커뮤니티를 연결하고 지속적이면서 장기적인 협력 실현에 중요할 수 있다.

언어 차이는 장벽이 되는 만큼 언어 장벽을 제거한다면 많은 아프리카인이 디지털 경제, 궁극적으론 AI 경제에 참여할 수 있다. 디지털 사회에 참가할 수 없는 이들이 AI에 참여할 수 있게 하는 게 마사카네에 참가하는 사람들의 책임이라고 설명한다.

깃허브가 2019년 발표한 보고서서에 따르면 케냥와 나이지리아 등 아프리카 국가에선 오픈소스 프로젝트 참여자가 크게 늘어나고 있다. 아프리카 기술·개발자 생태계는 실리콘밸리 기업에게도 매력적이며 2019년 트위터 잭 도시 CEO와 깃허브 너트 프리드먼 CEO는 잇따라 아프리카를 방문하기도 했다.

마사카네 참여자들은 아프리카 개발자 커뮤니티는 급속도로 늘어나고 있으며 아프리카어를 대상으로 한 기계번역은 매력이 크다고 할 수 있다고 설명한다. 마사카네가 아프리카 개발자를 전 세계에 알리는 발판이 될 수도 있다. 마사카네를 통해 영어 문헌이 아프리카 여러 연어로 번역되어 많은 인재를 육성하는 일로 이어질 수도 있다.

또 마사카네가 언어간 구조적 차이에 대한 이해를 높일 수 있다. 아프리카인에게 다양한 기회를 준다는 의미 뿐 아니라 개발자가 마사카네에 참여하는 이유로는 아프리카인에 의한 AI 프로젝트 성공이 아프리카 AI 연구자에 대한 제한 완화로 이어질 수 있다는 점도 들고 있다. 주요 AI 관련 회의 대부분은 유럽과 아시아, 북미에서 열리며 아프리카 연구자는 다른 연구자와 교류 기회가 제한되어 있다. 서방 국가에서 교육을 받은 아프리카인이라도 정부 기관 등이 아프리카인 AI 연구자 수용을 거부하는 경우도 있다고 한다.

2019년 12월 캐나다 벤쿠버에서 AI 국제 콘퍼런스(NeurIPS)가 열렸지만 아프리카와 아시아 연구자는 캐나다 정부가 비자 발급을 거부하는 사례가 보고되기도 했다. 이런 아프리카인 개발자에 대한 편견을 없애도 아프리카인에 의한 AI 프로젝트를 성공적으로 이끄는 건 중요한 의미를 갖는다.

그 밖에 마사카네에 참가한 아프리카 개발자가 다양한 지식을 서로 교환해 서로의 발전에 자극을 줄 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독

Most popular