테크레시피

1.58비트 대규모언어모델 선보인 마이크로소프트

마이크로소프트 연구팀이 모델 가중치를 -1, 0, 1 3가지 값만으로 해 대규모언어모델 계산 비용을 급감시키는데 성공했다고 발표했다.

-1, 0, 1 3개만이라면 곱셈이 불필요하게 되어 모든 계산을 덧셈으로 실시할 수 있게 된다. 따라서 동일 성능을 내는데 필요한 비용이 일반 대규모언어모델보다 급감한다고 한다. 또 파라미터가 -1, 0, 1이라는 3개값을 취하기 때문에 log[2](3) 값보다 1.58비트 모델이라고 말한다.

다양한 벤치마크에서 학습 데이터에 포함되지 않은 데이터를 처리하게 하는 소위 제로샷 성능을 LLaMA와 비교하면 같은 크기 LLaMA에 비해 비트넷(BitNet)은 성능 면에서 동등 이하지만 LLaMA 3B 모델에 대해 비트넷 3.9B 모델은 대부분 지표를 웃도는 등 조금 모델 크기를 크게 하면서 기존 성능을 유지할 수 있다는 걸 시사하고 있다.

성능 면에서 좋은 승부라고 할 수도 있지만 필요 메모리량이나 지연시간 등에선 비트넷이 압승. LLaMA 3B 모델보다 비트넷 3.9B 모델은 필요한 메모리량은 3.32분의 1, 대기시간은 2.4분의 1로 크게 줄었다. 지연시간과 메모리 소비량 차이는 모델 크기가 커질수록 벌어지며 70B 모델끼리 비교해선 비트넷 지연시간은 LLaMA 4.1분의 1, 메모리 소비량은 7.16분의 1까지 줄어든다고 한다.

또 행렬 연산 비용이 71.4분의 1로 격감하고 있으며 비트넷은 전체 에너지 소비량을 70B 모델로 LLaMA보다 41.2분의 1로 줄이는데 성공하고 있다. 배치 크기는 11배, 처리량은 8.9배로 높아졌다.

이 기법을 이용하면 행렬 연산에 필요한 곱셈량을 대폭 줄일 수 있기 때문에 논문에선 1비트 대규모언어모델용 새로운 하드웨어 설계를 열게 될 키라고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.

정용환 기자

대기업을 다니다 기술에 눈을 떠 글쟁이로 전향한 빵덕후. 새로운 기술과 스타트업을 만나는 즐거움을 독자들과 함께 나누고 싶습니다.

뉴스레터 구독