테크레시피

오픈소스로 등장한 멀티 모달 모델

딥마인드의 멀티모달 모델인 플라밍고(Flamingo)는 자연어 처리에서 많이 쓰이는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 기반으로 하지만 BERT 모델보다 더 빠르고 경량화된 구조를 갖추고 있다. 플라밍고는 딥러닝 모델을 사용해 자연어 이해를 위해 단어와 문장의 의미를 파악하는 기술을 제공한다.

이런 플라밍고 모델을 더 발전시키기 위해 독일 비영리단체 라이온AI(Laion AI)가 오픈소스 프로젝트인 오픈 플라밍고(Open Flamingo)를 시작했다. 이 프로젝트는 누구나 플라밍고 모델을 사용하고 개발할 수 있도록 코드, 데이터와 모델을 공개하는 것으로 최종적으로 이미지와 텍스트 입력을 다루는 GPT-4 수준에 필적하는 걸 목표로 한다.

오픈 플라밍고는 머신러닝 모델 개발을 단순화하고 빠르게 프로토타입을 만들 수 있도록 해주는 오픈소스 프레임워크. 텐서플로와 파이토치 같은 인기 있는 머신러닝 프레임워크 위에 구축되며 프로토타이핑과 프로덕션 수준 모델을 개발하고 관리하기 위한 다양한 기능을 제공한다.

오픈 플라밍고는 머신러닝 모델 개발을 위한 최신 도구를 제공하고 이를 통신 머신러닝 엔지니어나 데이터사이언티스트, 연구원, 소프트웨어 개발자가 효율적으로 모델을 개발할 수 있게 해준다. 데이터 전처리와 모델 학습, 모델 검증, 배포 같은 모든 단계를 포함해 모델 개발 전체 주기를 관리하기 위해 필요한 기능을 제공한다. 또 이를 위해 간단한 API도 제공한다.

오픈 플라밍고는 깃허브에 리포지토리가 공개되어 있으며 별도 데모 페이지도 개설되어 있다. 데모 페이지에선 이미지 캡션 생성과 동물 인식, 객체 카운트, 이미지에 관한 질문과 응답 등 4가지를 이용할 수 있다.

플라밍고 학습 데이터는 공개되지 않았기 때문에 오픈 플라밍고는 오픈소스 데이터세트를 이용한다. 구체적으로 이번에 공개된 오픈플라밍고-9B(OpenFlamingo-9B)는 500만 개 샘플을 가진 멀티모달 C4(Multimodal C4) 데이터세트와 1,000만 개 샘플을 가진 라이온-2B(LAION-2B)로 학습한 것이다.

아이온 측은 오픈플라밍고-9B 모델은 아직 완전히 최적화된 건 아니지만 프로젝트에 대한 가능성을 보여준다며 연구 커뮤니티 입장에서 대규모 멀티모달 모델 연구는 중요하며 이런 모델을 오픈소스화해 커뮤니티가 미래 모델에서 문제가 될 해를 완화하는 더 나은 방법을 개발할 수 있을 것이라고 밝혔다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

뉴스레터 구독