테크레시피

“AI 기여 컸다” 110개 언어 추가한 구글 번역

구글 번역(Google Translate)이 새롭게 110개 언어를 추가했다. 지금까지 가장 큰 규모 업데이트다.

구글에 따르면 AI를 사용해 지원 언어 확대를 진행하고 있으며 이번 언어 확장에는 대규모 언어 모델 PaLM 2 기여가 컸다고 한다. 이번에 추가된 언어를 사용하는 화자는 전 세계적으로 6억 1,400만 명 이상으로 세계 인구 8%에 해당한다. 1억 명 이상 화자를 가진 주요 언어도 있지만 작은 원주민 커뮤니티에서 사용되는 언어도 포함되어 있으며 그 중에서도 아프리카 언어는 역대 최대 규모로 확장됐다고 한다.

새롭게 지원되는 주요 언어를 살펴보면 먼저 파르어. 지부티, 에리트레아, 에티오피아에서 사용되는 성조 언어다. 이번에 추가된 언어 중 자원봉사 커뮤니티의 기여가 가장 많았다고 한다. 이어 광동어. 지금까지 구글 번역에 추가 요청이 많았던 언어 중 하나다. 문어체에서 광동어는 북경어와 중복되는 부분이 많아 데이터를 찾고 모델을 훈련시키는 게 어려웠다고 한다.

이어 맨섬어. 맨섬에서 사용되는 켈트어다. 1974년에 마지막 원어민 화자가 사망해 거의 절멸 위기에 처했지만 섬 전체에서 부흥 운동이 있어 현재 화자 수천 명이 있다. 다음은 은코 문자. 서아프리카에서 사용되는 만데어파 표준 언어다. 다양한 방언을 통합한 공통어로 1949년에 발명됐다고 한다. 이어 펀자브어(샴키 문자). 파키스탄에서는 헌법으로 국어를 우르두어로 정하고 영어를 공용어로 하고 있지만 실제로는 펀자브어가 가장 많이 사용된다고 한다.

다음은 타마지크어(아마지크어). 북아프리카 전역에서 사용되는 베르베르어파 언어로 방언은 많지만 문자는 대체로 상호 이해가 가능하다고 한다. 라틴 문자와 티피나그 문자로 표기되며 구글 번역은 둘 다 지원한다. 또 톡 피신. 파푸아뉴기니에서 공통어로 사용되는 영어 기반 크레올어다.

한편 구글은 전 세계에서 가장 많이 사용되는 1,000개 언어를 지원하는 AI 모델을 구축하는 1000 언어 이니셔티브도 발표했다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독