테크레시피

마이크로소프트, 인간 이상 정확도로 이미지에 캡션을…

마이크로소프트가 인간보다 정확한 설명을 이미지에 추가할 수 있는 새로운 캡션 생성 인공지능 모델을 구축했다고 밝혔다.

마이크로소프트 기술 펠로우 CTO를 맡고 있는 쉐동 황(Xuedong Huang)은 캡션 생성 도구에 대해 이미지에 캡션을 붙이는 시스템은 다양한 서비스를 가능하게 하는 핵심 컴퓨터비전 기능 중 하나라고 설명하고 있다.

마이크로소프트가 새로 구축한 캡션 생성 AI 모델은 애저 AI 서비스 일부인 애저 코그니티브 서비스(Azure Cognitive Services) 컴퓨터비전 오퍼링을 통해 사용할 수 있다. 개발자는 이 기능을 이용하면 자신의 서비스 접근성을 향상시키는 것도 가능하다. 캡션 생성 AI 모델은 이미 마이크로소프트가 개발한 시각장애인용 카메라 앱인 씨잉AI(Seeing AI)에 포함되어 있으며 2020년 후반에는 윈도와 맥OS 버전 마이크로소프트 워드, 아웃룩, 파워포인트에 통합될 예정이다.

마이크로소프트 캡션 생성 AI 모델은 검색엔진에 표시되는 이미지에서 파워포인트에 포함된 사진에 이르기까지 모든 사진에 캡션을 추가할 수 있다. 마이크로소프트 AI 플랫폼 그룹 내 소프트웨어 엔지니어링 매니저를 맡고 있는 사킵 샤이크(Saqib Shaikh)는 사진에 캡션을 추가하는 기능을 이용해 웹페이지나 문서에 포함된 사진 설명을 생성하는 건 시각장애인이나 시력이 약한 사람에게 중요하다고 설명했다.

개발팀은 씨잉 AI 에 캡션 생성 AI 모델 통합 작업을 진행했다. 씨잉 AI는 카메라를 통해 비추면 캡션을 생성하고 이를 통해 시각장애인이 눈앞에 있는 걸 파악하는데 도움을 준다. 이상적으론 서류나 웹, 소셜미디어상 모든 이미지에 캡션이 붙을 수 있으며 이를 통해 시각장애인이 모든 정보에 접근할 수 있어 주위처럼 대화를 이어갈 수 있다. 하지만 불행하게도 사람이 일일이 이미지에 대한 설명이나 캡션을 다는 게 아니기 때문에 이미지 캡션을 제공하는 앱이 중요하다는 설명이다.

리쥐안 왕(Lijuan Wang) 마이크로소프트 연구소 매니저는 사진 캡션은 컴퓨터비전 분야의 중심적 과제이며 AI가 이미지 요소를 제대로 이해하고 설명할 필요가 있다고 말한다. 사진 속에서 무슨 일이 일어나고 있는지 이해해야 객체와 행동간 관계를 알아 이를 자연어 문장으로 요약해 설명할 수 있다.

마이크로소프트가 만든 캡션 생성 AI 모델은 이미지 캡션 벤치마크인 노캡스(nocaps)에서 인간과 동등 이상 점수를 냈다고 한다. 노캡스는 AI 모델이 훈련에 사용한 데이터세트에 포함되지 않은 이미지에 얼마나 정확한 캡션을 다는지 점수를 낸다. 캡션 생성 AI 모델은 단어 태그와 결합된 이미지의 풍부한 데이터세트를 이용해 AI 모델을 사전에 교육하고 단어 태그로 특정 객체 맵핑을 강화한다.

마이크로소프트가 단어 태그로 특정 객체 맵핑을 강화하는 방법은 예를 들어 고양이 사진과 고양이라는 문자가 인쇄된 책을 이용해 아이에게 고양이에 대해 가르치는 행위와 비슷하다고 할 수 있다. 미리 개별 단어 학습을 진행한 AI 모델은 다음 캡션이 들어간 이미지 데이터세트를 이용해 학습을 실시해 캡션 정확도를 향상시켜 나간다. 이렇게 하면 캡션 생성 AI는 새로운 이미지에 자연스러운 어휘를 활용해 정확한 캡션을 생성할 수 있다.

또 업계에서 널리 쓰이는 다른 벤치마크를 이용하면 마이크로소프트 캡션 생성 AI 모델은 2015년 이후 마이크로소프트 제품에서 사용되어 온 이미지 캡션 모델보다 2배 뛰어나다는 결과가 나왔다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독