2024년 AI 분야에서 무엇이 일어났는지 돌아보면 2023년 시장을 석권했던 GPT-4를 뛰어넘는 AI 모델이 다수 등장하고 컨텍스트 윈도가 확장되고 멀티모달 모델이 일반화되며 가격도 급락했다.
지난 2023년 3월 공개된 오픈AI 대규모 언어 모델(LLM)인 GPT-4는 같은 해 12월 시점 가장 뛰어난 성능을 보이는 AI 모델이었다. 하지만 2024년 말에는 오리지널 GPT-4보다 더 뛰어난 성능을 발휘하는 AI 모델이 다수 등장했다. 실제로 LLM 성능을 비교하기 위한 오픈소스 AI 벤치마크인 챗봇 아레나(Chatbot Arena)에 따르면 현재 오리지널 GPT-4 이상의 순위에 있는 AI 모델이 70개나 존재한다.
오리지널 GPT-4보다 더 뛰어난 성능을 보인 AI 모델 중 가장 먼저 출시된 건 구글 제미나이 1.5 프로(2024년 2월 발표)다. 제미나이 1.5 프로는 오리지널 GPT-4와 동등한 출력을 생성할 수 있을 뿐 아니라 한 번에 처리할 수 있는 토큰 수 그러니까 컨텍스트 윈도가 100만 토큰이고 동영상 입력 기능도 갖추고 있다.
제미나이 1.5 프로는 2024년 주요 테마 중 하나인 컨텍스트 길이 증가도 보여준다는 지적이다. 2023년 등장한 AI 모델 컨텍스트 윈도는 대부분이 4096 토큰 또는 8192 토큰이었던 것에 비해 앤트로픽이 2023년 11월 발표한 클로드 2.1은 컨텍스트 윈도가 20만 토큰, 제미나이 1.5 프로는 업데이트를 통해 100만 토큰에서 200만 토큰까지 확장됐다.
컨텍스트 윈도 확장으로 AI 모델로 해결할 수 있는 문제 범위가 극적으로 넓어져 책을 통째로 1권 입력해서 해당 내용을 요약하거나 내용에 대해 질문하는 게 가능해졌다. 또 AI 모델로 코딩 문제를 정확하게 해결할 수 있게 되어 대량 샘플 코드를 입력하는 게 가능해졌다. 긴 입력을 동반하는 AI 모델 사용 예는 AI 모델 가중치에 이미 내장되어 있는 정보에만 의존하는 짧은 프롬프트보다 훨씬 더 흥미롭다.
앤트로픽이 2024년 3월 출시한 클로드 3는 여러 벤치마크 테스트에서 GPT-4 성능을 뛰어넘었다. 또 2024년 6월에는 클로드 3.5 소넷이 발표되어 더 높은 성능을 실현했다.
한편 챗봇 아레나에서 오리지널 GPT-4보다 높은 성능을 보인 AI 모델을 보유하고 있는 AI 조직은 구글, 오픈AI, 알리바바, 앤트로픽, 메타, 레카AI, 01 AI, 아마존, 코히어, 딥시크, 엔비디아, 미스트랄, 넥서스플로우, 지푸AI, xAI, AI21랩스, 프린스톤, 텐센트다.
한편 GPT-4 일부 모델은 노트북에서 작동 가능하다. 2023년형 M2 탑재 맥북 프로 메모리(RAM) 64GB 모델의 경우 고성능 노트북이지만 2022년 등장한 모델이다. 그런 M2 탑재 맥북 프로는 GPT-3와 동등한 AI 모델을 겨우 실행할 수 있는 수준이었지만 2024년 말 시점에서는 GPT-4와 동등한 AI 모델을 실행할 수 있게 됐다고 한다.
이는 놀라운 일이다. GPT-4 기능과 출력 품질을 갖춘 모델에는 4만 달러 이상 GPU를 탑재한 데이터센터급 서버가 하나 이상 필요하다고 생각할 수 있지만 실제로는 64GB RAM을 탑재한 노트북에서 이들을 실행할 수 있다는 것. 다만 RAM 대부분을 차지하기 때문에 자주 실행할 수는 없고 다른 용도로 노트북을 사용할 여유도 거의 없다. 어쨌든 이들이 실행될 수 있다는 사실은 지난 1년간 밝혀진 훈련과 추론 성능의 놀라운 향상에 대한 증거다. AI 모델 효율성이라는 점에서는 쉽게 달성할 수 있는 성과가 많이 있다는 것. 앞으로도 더 많은 성과가 나올 것으로 기대할 수 있다.
그 중에서도 주목할 만한 건 메타가 2024년 9월 공개한 Llama 3.2다. Llama 3.2에는 여러 모델이 존재하지만 스마트폰에서 로컬 실행이 가능한 소규모 모델도 존재한다.
Llama 3.2 소규모 모델에 대해 2GB 미만으로 데이터 크기가 작음에도 불구하고 놀랄 만큼 고성능이다.
다음은 경쟁과 효율성 향상으로 인한 LLM 가격 급락. 2023년 12월 당시 오픈AI는 입력 100만 토큰당 GPT-4는 30달러, GPT-4 터보는 10달러, GPT-3.5 터보는 1달러라는 요금을 청구했다. 하지만 현재 오픈AI는 가장 고가 AI 모델인 o1은 30달러, GPT-4o는 2.5달러, GPT-4o 미니는 0.15달러라는 요금을 부과하고 있다.
다른 AI 모델 이용 요금은 더 저렴해졌다. 입력 100만 토큰당 이용료는 앤트로픽 클로드 3 하이쿠가 0.25달러, 구글 제미나이 1.5 플래시가 0.075달러(약 12원), 제미나이 1.5 플래시 8B는 0.0375달러다.
AI 모델 가격 하락은 경쟁 심화와 효율성 향상이라는 2가지 요인에 의해 추진되고 있다. 효율성은 LLM 환경 영향을 우려하는 모든 이들에게 중요하다. 이 가격 하락은 프롬프트 실행에 얼마나 많은 에너지가 사용되고 있는지와 직접적으로 관련이 있다. 대규모 AI 데이터센터 구축으로 인한 환경 영향에 대해서는 여전히 우려할 점이 산적해 있지만 개별 프롬프트에 대한 에너지 비용에 관한 우려 대부분은 더 이상 신뢰할 수 없다는 설명이다. 이런 효율성 향상과 가격 하락이야말로 2024년 AI 분야 트렌드 중에서도 가장 눈길을 끌만하다.
다음은 멀티모달 모델 일반화. 2024년에는 거의 모든 주요 AI 기업이 멀티모달 모델을 출시했다. 2024년 3월 앤트로픽이 클로드 3 시리즈, 4월 구글이 제미나이 1.5 프로, 9월에는 미스트랄이 Pixtral 12B, 메타가 Llama 3.2, 11월에는 허깅페이스가 SmolVLM, 12월에는 아마존이 아마존 노바를 출시했다.
LLM 개선이 늦어지고 있다고 불만을 말하는 이들은 멀티모달 모델 진보를 놓치고 있는 경우가 많다고 생각할 수 있다. 이미지・음성・동영상에 대해, 프롬프트로 실행할 수 있는 건 이런 모델을 적용하는 매력적인 새로운 방법이다.
다음은 프롬프트 구동형 앱 생성은 이미 상품화되어 있다는 것. LLM이 놀랄 만큼 코드를 쓰는 게 능숙하다는 건 이미 명백해졌다. 적절한 지시를 하면, HTML・CSS・자바스크립트를 사용해서 완전한 인터랙티브 애플리케이션을 대부분 지시 한 번으로 구축할 수 있다.
앤트로픽은 클로드 3.5 소넷 내 아티팩트(Artifacts)라고 불리는 기능으로 AI에 의한 콘텐츠 제작 능력을 충분히 보여줬으며 같은 기능을 사용해서 인터랙티브 애플리케이션을 만들거나 이를 클로드 인터페이스 내에서 직접 사용하는 게 가능하다.
다음은 애플 인텔리전스는 별로지만 애플 MLX 라이브러리는 뛰어다나는 것. 애플은 2023년 12월 자사 프로세서인 애플 실리콘용 기계학습 프레임워크인 MLX를 발표했다. 이는 맥에서 다양한 LLM을 작동시키는 데 도움이 되는 것이다.
하지만 애플이 출시한 개인 AI인 애플 인텔리전스에 대해서는 거의 기대 이하라는 지적도 나온다. 애플 LLM 기능은 최첨단 LLM 기능에 비해 부족한 모방에 불과하다며 뉴스 헤드라인을 잘못 전달하거나 전혀 쓸모없는 문장 작성 지원 도구를 제공한다는 것.
마지막으로 현재 입수 가능한 최고의 LLM. 중국 AI 기업인 딥시크(DeepSeek)는 2024년 12월 말 파라미터 크기가 6,710억인 AI 모델 DeepSeek-V3를 출시했다. 이는 현재 이용 가능한 오픈라이선스 모델 중 가장 큰 파라미터 크기를 가진 AI 모델이다. 벤치마크 테스트에서는 클로드 3.5 소넷과 동등하다고 평가괬으며 챗봇 아레나에서는 제미나이 2.0과 오픈AI GPT-4o나 o1의 바로 뒤인 7위에 랭크됐다. 이 성능은 오픈라이선스 모델 중에서는 가장 높은 것이다.
DeepSeek-V3의 훌륭한 점은 훈련 비용이 압도적으로 저렴하다는 점에 있다. DeepSeek-V3의 훈련 비용은 추정 557만 6,000달러로 엔비디아 H800이라는 GPU를 사용해 278만 8,000시간 동안 훈련됐다. 미국 정부의 대중 GPU 수출 규제는 효과적인 훈련 최적화에 영향을 미친 것 같다는 분석도 나온다. 관련 내용은 이곳에서 확인할 수 있다.