AI 처리용 프로세서 등을 개발하는 기술 기업 셀레브라스(Cerebras)가 고속 AI 추론 서비스인 셀레브라스 인퍼런스(Cerebras Inference)를 발표했다. 셀레브라스 인퍼런스는 엔비디아 H100을 사용한 추론 서비스에 비해 22배 더 빠르고 비용은 5분의 1로 절감된다고 한다.
셀레브라스 인퍼런스는 AI 모델을 구축하는 학습과 AI 모델에 입력을 넣어 출력을 얻는 추론 중 추론 처리를 담당하는 서비스다. 셀레브라스 인퍼런스 서버는 셀레브라스가 독자 개발한 칩 WSE-3을 사용해 구축해 빠른 추론 처리가 가능하다.
셀레브라스 인퍼런스와 다른 추론 서비스 1 사용자당 1초에 처리할 수 있는 토큰 수를 비교하면 Llama 3.1 8B 추론 처리 결과에서 GPU 기반 클라우드 추론 서비스와 비교해 셀레브라스 인퍼런스는 압도적으로 높은 성능을 보여주며 독자 프로세서를 사용한 고속 추론 서비스인 Groq보다도 더 빠른 처리가 가능하다. Llama 3.1 70B도 셀레브라스 인퍼런스 성능이 두드러지게 높다.
셀레브라스 인퍼런스 성능과 비용을 H100을 사용한 추론 서비스와 비교한 결과 처리 성능은 H100 22배에 달하며 비용은 H100 5분의 1 수준으로 억제되어 있다.
데모 페이지에서는 Llama 3.1 8B 또는 Llama 3.1 70B와의 대화를 통해 셀레브라스 인퍼런스 성능을 직접 체험할 수 있다. 데모를 실행하려면 구글 계정이나 마이크로소프트 계정으로 로그인해야 한다.
셀레브라스 인퍼런스 요금은 Llama 3.1 8B가 100만 토큰당 10센트, Llama 3.1 70B는 100만 토큰당 60센트다. 관련 내용은 이곳에서 확인할 수 있다.