테크레시피

“기계번역 콘텐츠 넘쳐나면 언어 모델 학습에 영향”

AI는 엄청난 데이터를 학습해 이뤄진다. 많은 데이터가 인터넷에서 수집되지만 연구자는 마이너 연구라고 기계적으로 번역된 정보가 대량으로 나온 상태에서 언어 모델 학습에 우려가 있다고 지적하고 있다.

AWS AI 실험실 관계자는 기계 번역이 인터넷에 미치는 영향을 조사했다. 1997년 후반부터 무료 기계 번역을 인터넷에서 사용할 수 있게 됐으며 거의 같은 시기 학습 데이터 스크래핑이 시작됐다. 인터넷상 콘텐츠는 여러 언어로 변역될 수 있지만 기계 번역으로 병렬로 다중 언어로 번역되면 품질이 떨어지는 것으로 알려져 있다. 번역되는 언어가 늘수록 품질이 저하되고 기계 번역 보급률이 높아지고 있다는 걸 시사한다. 영어 같은 주요 언어는 인터넷에 인간이 만든 콘텐츠가 대량으로 존재하기 때문에 스크래핑해도 품질이 낮은 데이터가 혼동되는 비율은 낮아진다.

하지만 인터넷에 콘텐츠가 적은 저자원 언어의 경우 기계 번역으로 만들어진 게 해당 언어 콘텐츠 대부분을 차지하게 된다. 또 언어 모델을 학습하는데 있어 데이터세트 내용에는 편향이 없는 게 요구되지만 기계 번역으로 생성된 콘텐츠 내용은 선택 바이어스가 걸려 있는 걸 알고 있다. 이는 광고 수입 목표로 생성된 저품질 영어 콘텐츠를 기계 번역을 통해 여러 언어로 함께 번역했기 때문이라는 걸 시사한다.

저품질 콘텐츠가 늘면 해당 콘텐츠를 학습해 이뤄지는 기계 번역에 있어 번역 정밀도나 문장 유창성이 저하되어 더 많은 환각을 수반하는 유창성이 낮은 모델 생성으로 이어진다는 것. 인터넷에서 수집한 단일 언어 데이터와 2개 언어 데이터로 다국어 대규모 언어 모델을 학습하는데 심각한 우려가 발생했다고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사