테크레시피

위키피디아, 기계번역과 신뢰도 사이

위키피디아(Wikipedia)에는 여러 언어 버전이 존재한다. 하지만 영문 위키피디아의 번역 버전 중에는 기계번역 탓에 이해가 어려워진 것도 있어 당혹스러운 일이 발생하기도 한다.

위키피디아의 정책과 지침은 위키백과의 목표가 신뢰할 수 있는 무료 백과사전으로 질이나 양적인 면에서 사상 최대 백과사전을 만들어내는 것이라고 밝히고 있다. 하지만 특정 언어 영역에서 인기를 끄는 말이라도 자국어에선 인기가 없는 곳에서 기계번역으로 보게 되면 의아하게 생각될 수 있다.

위키피디아 최대 커뮤니티는 영어다. 100만 건 이상 텍스트가 존재한다, 언어는 300개 언어 중 15개가 많이 쓰인다. 실제로 인터넷에서 쓰이는 언어 중 가장 많은 건 영어와 중국어 순이기도 하다. 이런 이유로 영어와 자국어간 차이가 심할 수 있다.

위키피디아는 구글 번역과 제휴해 기사를 번역할 계획이 있다고 한다. 위키미디어 보도자료에 따르면 줄루어는 1,200만 명 이상이 사용하지만 위키피디아 내 텍스트 수는 1,100건에 불과하다고 한다. 다국어를 확대하겠다는 전략인 것이다.

이렇게 구글과 함께 개발한 게 CTT(Content Translation Tool)다. 7월 기준으로 베타 버전으로 사용은 제한되어 있다. 그래도 지금까지 40만 건에 달하는 위키피디아 기사를 이 도구를 통해 번역한 상태라고 한다. 보도자료에서도 명확하게 구글 분역을 비롯한 기계번역의 힘을 빌려 테스트를 번역하고 있다고 명시하고 있다. 이를 통해 콘텐츠를 번역할 수 있는 언어는 121개에 달한다.

CTT는 겉보기엔 편리하지만 위험도 내포하고 있는 것으로 보인다. 포르투갈어 편집자가 기계번역 품질이 나빠 마을의 펌프가 폭탄을 마을에 투하한 것으로 오인을 하기도 하는 등 문제가 발생할 수 있는 것.

최근 기계 번역에선 휴먼패리티(Human Parity)라는 말을 자주 말한다. 이는 인간으로 인해 번역의 품질이 높아지고 있다는 것으로 실제로 인간 수준 품질을 얻을 수 있는 건 극히 제한된 실험 결과만을 바탕으로 하는 경우가 많아 수많으 언어는 아직까지 이 정도 수준에 도달하지 않은 실정을 말하는 것이다.

위키피디아에서도 인도네시아어의 경우 공식적으로 번역 도구 사용 금지 요청이 나오기도 한다. 이런 문제로 위키피디아의 신뢰도가 손상되지 않을까 일부에선 우려의 목소리가 나온다. 구글 번역 품질이 좋아지고 있지만 여전히 언어별 번역 품질에는 차이가 큰 것으로 보인다. 전문가들은 지역 사회가 하나가 되어 기계학습을 개선하려는 노력을 하는 건 논의할 가치가 있다고 말한다. 기계번역 수정 등 힘든 방식으로는 효율성이 손실될 수 있기 때문이라는 설명이다. 언어나 용어를 번역하려면 문화를 배경으로 삼지 않으면 단순한 직역으론 문제가 생길 수 있다. 작은 번역 문서에도 실수가 여전히 존재하는 이유다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독