테크레시피

마이크로소프트, 문장+시각 이해하는 AI 발표해

최근에는 이미지 생성이나 인간과의 대화 등 특정 분야에서 뛰어난 능력을 발휘하는 AI가 주목받고 있다. 하지만 일부 AI 개발자는 인간처럼 언어나 시청각 등 다양한 정보를 처리할 수 있는 AGI(Artificial General Intelligence) 그러니까 범용 인공지능 개발을 목표로 하고 있다. 새롭게 마이크로소프트가 언어 처리 뿐 아니라 이미지나 시각 콘텐츠 인식도 뛰어나 도형을 이용한 아이큐 테스트에도 답할 수 있는 멀티 모달 AI인 코스모스-1(Kosmos-1)을 발표했다.

기술 진버로 인공지능은 인간에 필적하는 고품질 이미지나 문장을 생성할 수 있게 됐지만 인간에게는 단지 혼자서 다양한 태스크를 실행할 수 있다는 강점이 있어 현재 AI는 범용성 면에서 인간에 뒤떨어진다고 할 수 있다. 일부 AI 개발자는 AGI 개발에 임하고 있으며 AI 개발 기업인 오픈AI 샘 알트만 CEO 역시 2023년 2월 블로그에서 초지성인 AGI를 가진 세계로 이행하는 건 아마도 인류 역사상 가장 중요하고 희망이 가득하며 무서운 프로젝트일 것이라고 말하기도 했다.

이런 가운데 마이크로소프트는 자연어 처리 뿐 아니라 이미지 처리에도 뛰어나 이미지와 문장을 조합한 질문에 답변할 수 있는 AI인 코스모스-1을 발표했다. 마이크로소프트 연구팀은 아카이브에 게재한 논문에서 지능의 기본 부분인 멀티모달인 지각은 지식 획득이나 실세계 접촉이라는 점에서 범용 인공지능을 실현하기 위해 필요하다며 언어만 필요한 게 아니라 지각을 언어 모델과 일치시키는 게 필요하다고 밝히고 있다.

코스모스-1은 825GB 텍스트 데이터세트(The Pile)와 공통 크롤링에서 발췌한 웹 데이터를 이용해 학습된다. 마이크로소프트는 학습 후 코스모스-1에 대해 언어 이해, 언어 생성, OCR 미사용 문자 인식, 이미지 캡션 생성, 시각 콘텐츠를 포함한 질의응답 등 테스트를 실시해 성능을 조사했다. 연구팀이 논문에서 설명한 테스트 예를 보면 고양이 얼굴에 웃은 입가를 그린 종이를 씌운 이미지에 대해 왜 이 이미지가 재미있는지 설명하라는 질문이 있다. 코스모스-1은 고양이가 웃고 있는 것처럼 보이는 마스크를 착용하고 있기 때문이라는 꽤 정확한 답을 낸다. 또 금발인 헤어스타일은 뭐라고 불리냐는 질문에 포니테일이라고 답한다. 5+4라는 이미지와 함께 답을 묻는 문제에는 코스모스-1는 9라고 정확하게 답한다. 스마트워치 이미지를 보여주고 심박수를 묻는 문제도 마찬가지다. 픽사가 제작한 2008년 영화 윌리 이미지를 보여주고 이 이미지에 대해 설명해달라고 묻자 타이틀과 픽사 제작 등 자세하게 설명한다.

또 마이크로소프트는 아이큐 테스트에도 사용되는 RPM(Raven’s Progressive Matrices)이라는 도형을 이용한 문제도 코스모스-1에 냈다. 코스모스-1은 22∼26% 정답률을 보였다. 무작위로 대답했을 경우 정답률이 17%이므로 조금이지만 코스모스-1는 우연을 웃도는 확률로 정답을 맞춘 것이다.

마이크로소프트 연구팀은 앞으로 코스모스-1을 확장해 음성 인식 기능을 통합할 계획이다. 덧붙여 마이크로소프트는 코스모스-1을 개발자용으로 공개할 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독

Most popular