테크레시피

챗GPT, 비주요언어에선 응답 수준 떨어진다

챗GPT는 구글 코딩 시험이나 로스쿨 시험 합격점을 기록하거나 의사 면허 시험에도 합격하는 등 높은 정밀도로 답변할 수 있는 실력이 보고되고 있다. 한편 챗GPT와 영어 외 언어로 대화하고 있다면 의도가 잘 전해지지 않는다고 느끼는 경우도 많다. 그 중에서도 온라인에서 볼 수 없는 일부 언어에선 논리 테스트에 실패하거나 기본적인 정보를 검색할 수 없는 등 상당히 정밀도가 떨어지는 것으로 보고됐다.

챗GPT는 영어와 스페인어 같은 주요 언어에선 잘 작동하고 응답에 성공하지만 벵골어, 스와힐리어, 우르두어, 태국어 등 인터넷상 비주요 언어에선 주요 언어 같은 품질 텍스트를 생성하는데 어려움을 겪는다. 실제로 보도에선 이런 비주요 언어에 대한 챗GPT 응답 능력을 테스트한 결과 존재하지 않는 단어 구조, 비논리적 응답, 난센스 응답 등 번역 오류 수준을 훨씬 초과하는 문제가 확인됐다고 한다.

예를 들어 에티오피아 공용어 중 하나로 700만 명 이상이 사용하는 티그리냐어는 에티오피아에서 더 강력한 언어인 암하라어와 비슷한 문자를 공유하지만 티그리냐어와 암하라어는 큰 차이가 있으며 명확하게 구별된다. 하지만 챗GPT는 두 언어를 혼동하고 두 원어민 모두에게 읽기 어려운 문장을 생성한다고 한다. 또 아프리카 국가를 예를 들어 질문했는데 영어에선 10종류 아프리카 국가를 들었지만 티그리냐어로 질문하면 캐나다나 요르단 등 아프리카 대륙 이외 국가를 들고 전혀 존재하지 않는 국가명도 들기도 했다.

이 문제에 대해 전문가는 명사와 장소, 기관 등 고유 명사는 챗GPT에게 절대적 약점이라고 말한다. 이 문제는 주요 언어 이외 많은 언어로 공통되는 문제라고 지적한다. AI 연구자 사이에선 이런 언어를 저자원이라고 하며 세계에서 많은 화자를 보유한 언어라도 온라인 표기가 적기 때문에 이 언어에 맞춘 모델을 충분히 학습하지 못하는 문제가 있다. 결과적으로 자원이 적은 학습 부족 상태에서 챗GPT는 이해할 수 없는 응답을 생성하는 경우가 많다.

같은 문제에 대해 오리건대학 연구팀은 37개 다른 언어로 여러 글쓰기 작업을 챗GPT에 요구하고 응답 품질 비교 연구를 수행했다. 그 결과 상대적으로 적은 자원을 가진 언어에선 챗GPT 성능이 뒤떨어졌다. 연구에선 학습 데이터량이 영향을 미치는 건 분명하지만 그 외에도 영어와 구조적으로 다른 언어에선 챗GPT가 고전했다고 결론지었다.

중앙아메리카 서인도 제도 아이티 등에서 사용되는 아이티어는 불어 계열에 속하지만 독자적인 문법 규칙을 갖고 있고 의미나 철자가 다른 비슷한 소리 단어가 다수 존재하는 특징이 있다. 하지만 챗GPT는 아이티어를 불어와 혼동해 부정확한 철자를 사용하거나 불어로만 사용되는 단어를 사용하거나 아이티어 특징을 이해할 수 없는 경향을 보인다.

또 시 같은 문학적 텍스트에서도 뚜렷한 결과가 보고됐다. 인도 남부와 스리랑카, 싱가포르 등에서 공용어 중 하나인 타밀어는 7,800만 명 이상 화자가 있고 풍부한 문학사를 가진 언어다. 타밀어에는 Venpa라는 리듬시 스타일이 있지만 챗GPT에게 Venpa를 이용해 시를 쓰라고 명령하자 영어로 리듬이 고안된 시를 만들 수 있었지만 Venpa 태생인 타밀어에선 구조가 부정확하고 문장이 없는 문구도 포함되어 있을 만큼 시 생성에 실패했다.

오리건대학 연구팀은 저자원 언어에 본질적으로 부족한 건 더 의미론적 추론과 추론에 의한 복잡한 기술을 수행하는 부분이라며 챗GPT는 많은 저자원 언어에 대해 질의응답 문제와 함께 문장 요약이나 고유명사 특정, 상식적 추론에 어려움을 겪는 것으로 알려져 있다고 밝히고 있다. 또 다른 전문가는 영어가 지배하는 인터넷에서 데이터를 스크래핑하는 근원적 문제가 있다면서 따라서 오픈AI는 단독 책임이 요구되는 건 아지미나 이런 데이터 격차를 시정하고 다국어 사용자로부터의 액세스를 허용하며 챗GPT가 언어 번역 작업을 문제없이 실행할 수 있다는 약속을 이행해야 한다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사