아이가 새롭게 알게 된 단어를 특정 물체나 개념과 어떻게 연관지었는지에 대해선 다양한 연구가 있었지만 일반화하기에는 한계가 있었다. 뉴욕대학 연구진은 아이의 주관적 시점을 재현할 수 있는 헤드마운트 카메라 영상을 바탕으로 AI를 훈련시키는 전례 없는 연구를 수행했다.
연구팀은 아이에게 헤드마운트 카메라를 착용시켜 6개월부터 2세가 될 때까지 뭘 보고 들었는지 녹화했다. 녹화된 영상에는 아이가 놀이를 하거나 식사를 하거나 그림책을 읽어주는 것을 듣는 등 전반적인 발달 과정에 걸친 다양한 활동 모습이 담겨 있었다. 등장하는 단어 수는 25만 개 가량이었고 그 중 많은 단어가 반복적으로 사용됐다고 한다. 연구팀은 매주 1회, 60시간 이상 녹화 영상을 사용해 AI 훈련을 실시했다. 훈련 시에는 영상에서 추출한 이미지와 텍스트로 전사된 음성이 각각 별도 모듈로 취급되어 대조 학습을 통해 결합됐다. 예를 들어 부모가 아이에게 뭔가를 말할 때 발화된 단어 일부는 아이가 보고 있는 것을 가리킬 가능성이 있다. 이런 단서를 결합해 ” 단어는 이 물체/개념을 가리킨다고 학습하게 된다.
이런 식으로 아이 시점 대조 학습(CVCL) 모델을 훈련시킨 뒤 연구팀은 아기 단어 학습 능력을 측정하는 것과 마찬가지로 목표 단어와 다른 4개 이미지를 제시하고 단어가 어떤 이미지를 가리키는지 테스트했다. 그 결과 CVCL 모델은 아이가 일상에서 접하는 수많은 단어와 개념을 학습했다는 걸 보여줬다.
연구팀은 이번 연구 결과는 최신 알고리즘 발전과 한 아이의 자연스러운 경험을 결합하면 초기 언어와 개념 습득에 대한 이해를 재구축할 수 있는 가능성을 보여준다고 밝혔다. 또 AI 모델을 사용해 아이가 직면하는 언어 학습 문제를 연구해 아이가 말을 배우는 데 필요한 요소는 뭐냐는 오랜 논쟁에 대처할 수 있다. 학습만으로도 지금까지 생각했던 것보다 많은 것이 가능한 것 같다는 설명이다. 관련 내용은 이곳에서 확인할 수 있다.