로컬 AI 모델 실행 무료 SW, 멀티모달 입력도 지원한다

AI 모델을 로컬에서 실행할 수 있는 오픈소스 소프트웨어인 llama.cpp가 이미지 입력에 대응했다. 이미지와 텍스트를 동시에 입력해 이 이미지에는 무엇이 찍혀 있냐 같은 질문에 답변하게 할 수 있다.

llama.cpp는 GGUF 형식으로 변환된 AI 모델을 실행할 수 있는 소프트웨어로 Llama 외에도 젬마(Gemma) 시리즈나 DeepSeek-R1 등 다양한 AI 모델을 로컬 환경에서 구동할 수 있다. 또 윈도와 맥OS, 리눅스에 대응하고 있으며 Metal이나 CUDA, OpenCL 등 수많은 백엔드에 대응하고 있어 다양한 환경에서 AI 모델을 실행할 수 있다.

이런 llama.cpp에 이미지 입력 기능을 추가하는 변경이 지난 5월 10일 병합됐다. llama.cpp Web UI에서 포스터 이미지와 함께 이건 무엇이냐고 입력하면 어떤 포스터인지 설명하는 문장이 생성된다.

Radeon RX 7900 XTX를 탑재한 PC에서 미스트랄 스몰(Mistral Small) 2504 4비트 양자화 버전을 실행해 이미지와 텍스트의 동시 입력에 성공했다는 것도 보고됐다. 딸기가 많이 담긴 접시 사진을 입력하면서 R이라는 글자를 형성하고 있는 딸기는 몇 개냐는 다소 어려운 질문을 던지자 정답을 맞출 때도 있고 틀릴 때도 있었다고 한다.

llama.cpp에 대한 자세한 정보는 여기에서 공개되어 있어 소스코드나 설치 절차 등을 확인할 수 있다. 관련 내용은 이곳에서 확인할 수 있다.

이원영 기자

컴퓨터 전문 월간지인 편집장을 지내고 가격비교쇼핑몰 다나와를 거치며 인터넷 비즈니스 기획 관련 업무를 두루 섭렵했다. 현재는 디지털 IT에 아날로그 감성을 접목해 수작업으로 마우스 패드를 제작 · 판매하는 상상공작소(www.glasspad.co.kr)를 직접 운영하고 있다. 동시에 IT와 기술의 새로운 만남을 즐기는 마음으로 칼럼니스트로도 활동 중이다.

모든 기사 보기