메타가 지난 8월 릴리스한 코드 LLaMA(Code LLaMA)는 텍스트 입력을 바탕으로 프로그램 코드를 생성해 주는 코딩 지원 AI다. 이런 코드 LLaMA를 미세 조정한 2종(CodeLlama-34B, CodeLlama-34B-Python)을 오픈AI 테스트 데이터세트(HumanEval)로 테스트한 결과 오픈AI 대규모 언어 모델인 GPT-4 결과를 웃돌았다고 보고됐다.
코드 LLaMA는 메타가 지난 7월 선보인 LLaMA 2를 코드 고유 데이터세트로 더 학습시킨 것이다. 코드 생성 기능 외에 자연어 입력을 바탕으로 한 코드 생성이나 코드에 대한 해설 생성 등이 가능하다.
이런 코드 LLaMA에 대해 AI 개발 기업인 파인드(Phind)가 미세 조정을 더해 테스트를 실시했다. 구체적으론 앞서 소개한 2종에 대해 프로그래밍 문제와 해결책 8만 건을 제시하고 미세 조정을 실시했다. 미세 조정에는 2가지(DeepSpeed ZeRO-3, Flash Attention 2)를 채택하고 32개 엔비디아 A100 텐서 코어 GPU를 사용했다. 파인드에 따르면 학습에는 3시간이 걸렸다고 한다.
또 파인드는 CodeLlama-34B와 CodeLlama-34B-Python에 대해 평가 데이터 오염을 제거하는 처리를 실시해 결과 타당성을 확보했다. 파인드에 따르면 평가에서 50문자가 넘는 경우는 3개 문자열을 랜덤하게 샘플링해 평가를 실시, 50문자 이내인 경우 생성된 건 전체를 평가했다고 한다..
이를 테스트 데이터세트(HumanEval)를 이용해 테스트한 결과 GPT-4는 67% 문제를 해결할 수 있었지만 CodeLlama-34B는 67.6%, CodeLlama-34B-Python은 69.5% 문제를 해결한 것으로 보고됐다. 파인드 측은 사용자 추가 검증과 오픈소스 커뮤니티 강화를 목적으로 테스트에 사용한 미세 조정한 CodeLlama-34B와 CodeLlama-34B-Python을 허깅페이스에 공개하고 있다. 또 이번에 공개한 모델은 시작에 불과하며 추가 테스트를 실시한 개선 버전이 곧 공개될 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.