애플, 이미지 보고 질문에 답하는 LLM 가중치 정보 공개

애플이 이미지와 텍스트를 결합해 작업을 수행할 수 있는 멀티모달 대규모 언어 모델인 페렛(Ferret) 가중치 정보를 공개했다. 가중치 데이터는 CC-BY-NC 라이선스로 제공되며 연구 목적으로만 사용할 수 있다.

페렛은 2023년 10월 30일 공개된 멀티모달 대규모 언어 모델로 이미지 영역을 지정해 해석할 수 있는 능력이 있는 게 특징. 영업 지정 방법에는 점, 사각형, 프리폼 3종류가 존재하고 있다. 이미지 일부를 지정하는 것으로 텍스트로 영역 100, 600, 500, 900에는 뭐가 있냐 같은 영역을 참조해 질문하는 게 가능하다. 페렛 모델은 이미지와 텍스트를 바탕으로 고양이 꼬리입니다 같은 대답을 할 수 있다. 동시에 더 정확한 영역 정보도 대답해준다는 것.

페렛 모델은 2023년 3월 공개된 대규모 언어 모델 비쿠나(Vicuna)를 기반으로 메모리 80GB A100 GPU 8개로 학습되고 있다. 비쿠나는 메타AI가 2023년 2월 발표한 LLaMA를 기반으로 파인튜닝한 모델이기 때문에 페렛 모델을 사용하려면 페렛 모델 라이선스인 CC-BY-NC 외에도 비쿠나, LLaMA 라이선스를 따라야 한다.

깃허브 페이지에선 데모 기동 방법이나 동작 모습도 공개되고 있다. 데모를 이용하려면 비쿠나 가중치와 페렛 차이 데이터를 바탕으로 페렛 가중치를 생성하는 절차가 필요하다. 관련 내용은 이곳에서 확인할 수 있다.