애플 연구자가 아카이브에 공개한 논문(LLM in a flash: Efficient Large Language Model Inference with Limited Memory)을 통해 메모리가 한정된 기기 상에서 대규모 언어 모델 추론을 효과적으로 하는 길을 여는 해결책 그러니까 아이폰 등 기기 상에서 LLM을 동작시키기 위한 기술 제시를 밝히고 있다. 애플이 미래에 아이폰에서 LLM을 작동시키는 걸 목표로 하고 있다고 보여진다.
연구팀은 논문 중 스마트폰 같은 모바일 기기에선 기존 LLM 실행에 사용되어 온 램보다 플래시 메모리 스토리지가 풍부한 용량을 가지는 것에 주목하고 있다. 또 윈도잉(Windowing)과 행렬 번들링(Row-Column Bundling)이라는 2가지 기술을 사용해 플래시 메모리 처리율을 극대화하는 걸 목표로 하고 있다.
윈도잉이란 AI 모델이 매번 새로운 데이터를 로딩하는 게 아니라 이미 처리한 데이터 일부를 재이용하는 것이다. 이렇게 하면 메모리를 정기적으로 가져올 필요성이 줄고 프로세스가 더 빠르고 원활하게 된다. 또 행렬 번들링은 플래시 메모리 순차 데이터 액세스에 맞춰 데이터 청크(Chunk) 사이즈를 늘리는 기술이다.
애플 연구팀에 따르면 윈도잉과 행렬 번들링 2개를 조합해 이용 가능한 DRAM 최대 2배 사이즈로 AI 모델을 실행할 수 있게 된다고 한다. 이 추론 속도는 표준 프로세서에서 CPU로 실시했을 경우 4∼5배, GPU롤 실시했을 경우 20∼25배에 필적한다고 한다.
원래 데이터센터에서 동작하는 LLM을 스마트폰 같은 모바일 기기에서 로컬로 동작시키려는 시도는 이미 구글이 실용화 단계로 진행 중이다. 구글은 멀티모달 AI인 제미니 최소 크기 모델인 제미니 나노를 픽셀8 프로에 도입해 클라우드가 아닌 기기에서 실행되는 로컬 AI로 작동한다고 밝혔다.
한편 애플은 2011년부터 가상 어시스턴트인 시리를 아이폰을 비롯한 애플 기기에 탑재하고 있다. 하지만 시리는 요즘 챗GPT나 빙챗, 제미니처럼 인간 같은 대화문을 생성하는 챗봇이 아니라 어디까지나 음성 입력 조작을 가능하게 하는 어시스턴트 도구일 뿐이다.
애플은 구글이나 마이크로소프트에 AI 기술에 뒤쳐져 있지만 2023년 들어 애플이 독자적인 에이작스(Ajax)로 불리는 LLM을 이미 구축하고 있어 사내에선 애플GPT라고 불리는 독자 챗봇 AI를 개발 중이라고 보도되고 있다. 보도에 따르면 에이작스는 오픈AI GPT-3 혹은 GPT-4에 필적하도록 설계되어 있어 2,000억 파라미터로 동작한다고 한다.
지난 11월 팀쿡 CEO는 자세한 내용을 밝히지 않았지만 생성형 AI에 관해 연구를 진행 중이라며 생성형 AI가 중심인 제품을 선보일 때가 올 것이라는 말로 애플이 생성형 AI 개발에 착수했다는 점을 인정하고 있다.
궁극적으로 애플이 노력 중인 생성형 AI는 시리에 통합될 수 있다. 2023년 10월에는 이미 소프트웨어 엔지니어링 그룹이 iOS 18에 AI 기능을 탑재하고 시리와 메시징 앱에 LLM에 의한 문장 생성이 응용되는 게 보도되고 있다. 또 생성형 AI를 엑스코드(Xcode) 등 개발 도구에 통합하는 것도 검토되고 있어 마이크로소프트 깃허브 코파일럿처럼 코드를 작성할 때 자동 보완해주는 코딩 지원 AI 도입도 계획되고 있다고 한다.
한 애널리스트는 애플이 2024년 후반 출시할 iOS 18에 아이폰과 아이패드에서 사용할 수 있는 생성형 AI 기능을 탑재할 것으로 예상하고 있다. 이에 따르면 2023년 10월 애플은 이미 수백 대로 이뤄진 AI용 서버를 준비했으며 2024년에는 더 증축할 예정이라고 한다.
이번에 발표된 논문은 LLM을 아이폰 상에서 동작시키는 걸 상정한 것이라고 할 수 있다. 연구팀은 이번 혁신은 자원이 제한된 환경에 고도의 LLM을 도입하고 적용성과 접근성을 확대할 때 중요하다며 설계 통합은 메모리가 제한된 장치에서 LLM을 효과적으로 추론할 길을 열어줄 것이라고 덧붙였다. 관련 내용은 이곳에서 확인할 수 있다.