메타가 2023년 2월 발표한 대규모 언어 모델인 LLaMA는 GPT-3에 필적하는 성능을 갖고 단품 GPU에서도 동작 가능할 만큼 동작이 가볍기 때문에 소비자 레벨 하드웨어 환경에서도 챗GPT 같은 AI를 움직일 수 있게 될 것으로 기대되고 있다. 그런데 이런 LLaMA 데이터가 유출되어 화제가 되고 있다.
오픈AI 챗GPT와 딥마인드 친칠라(Chinchilla) 등 기존 대규모 언어 모델을 동작시키려면 AI에 최적화된 가속기를 여러 대 사용할 필요가 있었다. 하지만 LLaMA는 단독 GPU에서도 충분히 동작 가능하다. 모델 규모를 나타내는 파라미터 수도 압도적으로 적어야 한다는 게 이점이다. 현재 모델 데이터 일부가 깃허브에 공개되고 있으며 메타AI리서치에 연락하면 신경망에서 학습한 가중치를 따로 다운로드할 수 있는 상태다.
하지만 온라인 커뮤니티 4chan AI 챗봇 스레드로 2023년 3월 3일 한 사용자(llamanon !! T2UdrWkLSWB)가 갑자기 매개변수 650억인 LLAMA-65B 가중치 데이터를 다운로드 가능한 토렌트 파일과 링크를 공개했다. 또 깃허브에 위치한 LLaMA 리포지토리는 4chan에 게시된 링크 추가를 요청한다.
유출된 LLaMA 가중치 데이터를 기반으로 LLaMA의 7B, 13B, 30B, 65B 가중치 데이터를 40MB/sec로 다운로드할 수 있는 다운로더가 깃허브에 게시됐다.
다운로더를 공개한 사용자는 이미 LLaMA 가중치 데이터가 유출된 걸 위험하다고 주장하는 사람도 나오고 있다며 GPT-2의 큰 매력은 개인적으로 2019년 기계학습에 대해 진지하게 연구하는 매력이 됐다면서 이로부터 4년이 지났다고 밝혔다. 이어 GPT-2 유출 데이터에 대해선 더 이상 아무도 신경 쓰지 않으며 광범위한 사회적 피해는 없었다는 걸 분명히 알았다면서 LLaMA도 마찬가지라고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.