
AMD가 오픈소스 언어 모델 인스텔라(Instella)를 발표했다. 인스텔라는 AMD Instinct MI300X GPU를 사용해 훈련된 30억 파라미터 모델로 Llama-3.2-3B, Gemma-2-2B, Qwen-2.5-3B 등 최첨단 오픈웨이트 모델과 비교해 경쟁력 있는 성능을 발휘한다고 밝혔다.
인스텔라는 30억 파라미터를 가진 텍스트 전용 트랜스포머 기반 언어 모델로 36개 디코더 레이어를 갖고 있으며 각 디코더 레이어에는 어텐션 헤드 32개가 있다. 최대 4096 토큰 시퀀스를 지원하며 어휘 크기는 5만 토큰이다.
인스텔라는 AMD Instinct MI300X GPU 128개를 사용해 4조 1,500억 토큰 데이터로 훈련됐다. 훈련에 사용된 토큰 수와 성능간 균형 측면에서 기존 완전 오픈 모델을 능가했으며 첨단 오픈웨이트 모델과 비교해도 뒤처지지 않는 성능을 발휘했다.
벤치마크 결과 사전 훈련된 모델 간 비교에서는 인스텔라가 기존 모델을 앞섰고 명령 조정된 모델 간 비교에서도 인스텔라는 대등 이상 위치를 차지하고 있다.
훈련 파이프라인은 먼저 4조 토큰 데이터로 1단계 사전 훈련을 진행하고 이어 580억 토큰의 데이터로 다단계 추론이나 수학 능력을 강화하는 2단계 사전 훈련을 실시했다. 그 후 267억 토큰 지시-응답 쌍 데이터로 사용자 쿼리에 응답하는 능력을 높이고 마지막으로 7억 6,000만 토큰 데이터로 출력 유용성, 정확성, 안전성을 높이기 위한 훈련을 실시했다.
인스텔라는 완전히 오픈되고 접근 가능한 모델로 훈련 하이퍼파라미터와 데이터세트, 사용한 코드 등이 공개되어 있다. 훈련별 단계 체크포인트도 각각 허깅페이스에서 다운로드할 수 있다.
AMD는 인스텔라 같은 노력을 통해 AMD 제조 GPU 상에서 언어 모델을 훈련하는 가능성을 보여줄 수 있었다고 언급했다. 앞으로도 컨텍스트 길이, 추론 능력, 멀티모달 기능 등 여러 측면에서 모델을 강화해 나갈 예정이라고 한다. 관련 내용은 이곳에서 확인할 수 있다.