테크레시피

소형이지만 오픈AI급 성능…멀티모달 AI 몰모 공개

9월 25일 알렌인공지능연구소(Ai2)는 새로운 멀티모달 AI인 몰모(Molmo)를 오픈소스로 출시했다. 몰모는 오픈AI GPT-4o나 구글 제미나이 1.5 프로와 같은 대기업이 개발한 최첨단 AI에 필적하는 성능을 가지고 있으면서도 모델 크기는 10분의 1로 매우 작다. 브라우저에서 몰모 성능을 확인할 수 있는 데모 페이지도 공개되어 있다.

몰모는 다양한 기능을 제공한다. 예를 들어 스마트폰으로 과자 봉지를 찍고 이건 비건 음식이냐고 질문하면 몰모는 AI 음성으로 이 제품은 비건 음식이 아니라고 답한다. 몰모는 이미지에 보이는 물체를 정확하게 인식하고 사용자 질문에 응답할 수 있다.

또 이미지에 있는 특정 항목 수를 인식하고 포인터로 가리키기 기능도 지원한다. 예를 들어 많은 사람이 앉아 있는 테이블 사진을 찍고 인원을 세어달라고 지시하면 몰모는 사진에 보이는 사람을 포인터로 표시하며 몇 명이라고 답한다. 이외에도 JSON 파일로 변환하는 코딩 작업 등 다양한 요청에 응답할 수 있다.

몰모 성능을 브라우저에서 시험할 수 있는 데모 페이지도 제공되고 있다. 데모 페이지에서는 사용자가 선택한 이미지를 기반으로 AI가 질문에 답하며 예를 들어 사진 속에 몇 마리 개가 보이냐는 질문에 몰모는 이미지를 분석해 답한다. 몰모는 사진 속 물체를 시각적으로 인식하고 이에 대해 명확한 답변을 제공한다.

몰모는 챗GPT와 같은 풀 서비스 챗봇은 아니며 API나 기업 통합 기능이 제공되지는 않지만 다양한 일상적인 상황에서 이미지 기반 질문에 답할 수 있는 멀티모달 AI다. 그럼에도 불구하고 몰모는 최첨단 AI 모델에 비해 훨씬 적은 매개변수(72B/7B/1B)를 사용하면서도 높은 성능을 발휘한다.

몰모 성능은 오픈AI GPT 시리즈나 구글 제미나이 시리즈와 비교할 때 비슷한 성능을 보여주면서도 모델 크기는 훨씬 작다. 몰모가 적은 데이터로도 높은 성능을 발휘하는 이유는 데이터 품질 덕분이다. 몰모는 저품질 중복 데이터 대신 사람이 음성으로 설명한 고품질 이미지 데이터 60만 장을 사용해 학습했다.

완전 무료로 오픈소스로 제공되는 몰모 덕분에 개발자나 창작자가 대기업 허가나 비용 없이 AI를 활용한 애플리케이션과 서비스를 만들 수 있게 됐다. Ai2 CEO인 아리 파르하디는 자사가 목표로 하는 대상은 연구자, 개발자, 애플리케이션 개발자, 대규모 모델을 다룰 줄 모르는 사람이라며 이런 다양한 사람을 대상으로 하기 위해 더 쉽게 접근할 수 있도록 한다는 원칙을 고수하고 있다고 밝혔다.

몰모 모델은 머신러닝 플랫폼인 허깅페이스에서 오픈소스로 공개되고 있다. 관련 내용은 이곳에서 확인할 수 있다.

이석원 기자

월간 아하PC, HowPC 잡지시대를 거쳐 지디넷, 전자신문인터넷 부장, 컨슈머저널 이버즈 편집장, 테크홀릭 발행인, 벤처스퀘어 편집장 등 온라인 IT 매체에서 '기술시대'를 지켜봐 왔다. 여전히 활력 넘치게 변화하는 이 시장이 궁금하다.

뉴스레터 구독