LoRA(Low Rank Adapation)는 AI에 대한 추가 학습을 적은 계산량으로 실시하기 위한 모델이다. 워싱턴대와 듀크대 연구팀이 이런 LoRA를 이용해 사전 학습된 대규모 언어 모델에 저비용이고 효율적으로 파인 튜닝을 실시할 수 있는 시스템인 푸니카(Punica)를 공개했다.
기업과 개발자가 특정 작업에 적합한 대규모 언어 모델을 준비하려면 사전 학습된 대규모 언어 모델을 미세 조정해야 한다. 하지만 대규모 언어 모델에는 매개 변수 수십억 개가 있으며 모든 매개변수를 직접 정밀 조정하는데 엄청난 계산이 필요하다.
푸니카에는 다양한 LoRA 모델 배치 처리를 가능하게 하는 쿠다(CUDA) 커널 설계가 포함되어 있다. 이렇게 하면 서로 다른 LoRA 모델 여러 개를 처리할 때 기반이 되는 사전 학습된 대규모 언어 모델 복사본을 하나만 보관할 수 있어 메모리와 계산 모두에서 GPU 비용 성능이 크게 향상된다.
사전 학습된 대규모 언어 모델은 100GB 규모 스토리지를 소비한다. 하지만 LoRA로 미세 조정된 모델은 몇GB 스토리지와 메모리 오버헤드를 추가하는 것만으로 충분하다. 푸니카를 사용하면 한 모델을 실행하는 비용으로 여러 LoRA 미세 조정 모델을 실행할 수 있다고 한다. 이를 통해 푸니카는 다른 모델과 달리 12배 처리량을 달성한다고 한다.
LoRA를 대규모 언어 모델에 적용하는 연구는 푸니카 뿐 아니라 다른 연구팀도 실시하고 있다. 2023년 11월 6일에는 푸니카와 마찬가지로 LoRA를 활용해 GPU 상에서 저비용이고 효율적으로 대규모 언어 모델을 파인 튜닝하는 S-LoRA에 관한 논문이 아카이브에 게시됐다.
또 LoRA에 의해 저비용으로 효율적으로 대규모 언어 모델을 취급할 수 있도록 하는 기술에 대해선 이미 구글이 등장을 예언하기도 했다. 구글은 내부 문서에서 LoRA 등장으로 오픈소스 대규모 언어 모델 성능을 향상시키고 자사 개발 AI 모델이 오픈소스 모델에 패배할 가능성조차 있다고 지적했다. 관련 내용은 이곳에서 확인할 수 있다.