엔비디아 H100보다 22배 빠른 AI 추론 서비스?

이원영 기자

2024.08.30

AI 처리용 프로세서 등을 개발하는 기술 기업 셀레브라스(Cerebras)가 고속 AI 추론 서비스인 셀레브라스 인퍼런스(Cerebras Inference)를 발표했다. 셀레브라스 인퍼런스는 엔비디아 H100을 사용한 추론 서비스에 비해 22배 더 빠르고 비용은 5분의 1로 절감된다고 한다.

셀레브라스 인퍼런스는 AI 모델을 구축하는 학습과 AI 모델에 입력을 넣어 출력을 얻는 추론 중 추론 처리를 담당하는 서비스다. 셀레브라스 인퍼런스 서버는 셀레브라스가 독자 개발한 칩 WSE-3을 사용해 구축해 빠른 추론 처리가 가능하다.

셀레브라스 인퍼런스와 다른 추론 서비스 1 사용자당 1초에 처리할 수 있는 토큰 수를 비교하면 Llama 3.1 8B 추론 처리 결과에서 GPU 기반 클라우드 추론 서비스와 비교해 셀레브라스 인퍼런스는 압도적으로 높은 성능을 보여주며 독자 프로세서를 사용한 고속 추론 서비스인 Groq보다도 더 빠른 처리가 가능하다. Llama 3.1 70B도 셀레브라스 인퍼런스 성능이 두드러지게 높다.

셀레브라스 인퍼런스 성능과 비용을 H100을 사용한 추론 서비스와 비교한 결과 처리 성능은 H100 22배에 달하며 비용은 H100 5분의 1 수준으로 억제되어 있다.

데모 페이지에서는 Llama 3.1 8B 또는 Llama 3.1 70B와의 대화를 통해 셀레브라스 인퍼런스 성능을 직접 체험할 수 있다. 데모를 실행하려면 구글 계정이나 마이크로소프트 계정으로 로그인해야 한다.

셀레브라스 인퍼런스 요금은 Llama 3.1 8B가 100만 토큰당 10센트, Llama 3.1 70B는 100만 토큰당 60센트다. 관련 내용은 이곳에서 확인할 수 있다.

이 글 공유하기:

추천기사