아이가 언어를 배우는 건 부모나 주위 사람이 자신에게 말을 걸어오는 걸 듣고 눈으로 보고 물건이나 상황을 결부해 이해하려는 노력에서 시작된다. 언어를 구성하는 문법이나 어순에 대한 이해도 이 시기에 크게 발달한다.
같은 언어라고 해도 컴퓨터가 다루는 언어는 소스코드 구문을 해석하는 프로그램이 언어를 이해하는 역할을 한다. 각각 맡은 언어 구문과 이에 대한 주석을 이해해 실행을 가능하게 하는 것이다.
그런데 이런 식으로 인간이 말하는 언어를 컴퓨터에 가르치려고 하면 곤란하다. 미리 구문 등에 대한 해석 방법을 주석으로 넣어도 그대로 말하는 게 아니기 때문에 인공지능은 부자연스러운 언어에서 벗어나기 어렵다. 이런 이유로 MIT 연구팀은 인간 아이처럼 단어와 상황을 더해 감지, 그러니까 관찰하게 해 배우는 기능을 하는 파서(parsers)를 개발했다.
이 파서를 갖춘 인공지능은 언어 조립 방법을 알기 위해 자막 영상을 관찰하고 언어를 영상에 비치는 개체 행동과 결부해 이해한다. 어느 정도 학습을 거듭한 인공지능은 새로운 어떤 문장이 주어지면 배운 내용을 활용해 잠재적 의미를 포함해 이해하고 해석할 수 있다. 이 같은 접근 방식은 아이가 언어를 배우는 것과 마찬가지로 유연함을 제공한다. 시스템은 딱딱한 구문이 아니라 상황을 관찰하고 있기 때문에 올바른 말을 학습해갈 수 있다.
MIT 연구팀은 주위 사람의 말하는 습관에 대응할 수 있는 로봇 개발을 가정하고 아이처럼 말을 기억하는 방법을 학습 속도 향상이나 구문, 주석 준비가 어려운 언어도 습득할 수 있는 인공지능을 만들려 하고 있다.
앞으로 연구가 진행되면 영상 뿐 아니라 인공지능이 서로 언어를 가르치는 일도 가능할 수 있다. 반대로 인공지능 모델을 통해 아이가 언어로 세상을 알아가는 방법을 연구할 가능성도 있다. 관련 내용은 이곳에서 확인할 수 있다.