프롬프트를 입력하는 것만으로 고정밀도 이미지를 생성할 수 있는 AI인 스테이블 디퓨전이 화제가 되고 있지만 스테이블 디퓨전은 기본적으로 엔비디아 GPU를 사용하는 게 상정되어 설계되고 있다. 따라서 사용하는 GPU에 따라 실행 속도가 달라진다. 그렇다면 어떤 GPU가 가장 빨리 스테이블 디퓨전을 실행할 수 있을까.
복잡한 AI를 만들려면 방대한 학습을 위해 하드웨어 서버가 필요하지만 이미 훈련된 AI를 사용하기만 하면 소비자용 PC에 탑재된 일반 GPU로도 가능하다. 기본적으로 엔비디아 GPU를 상정해 만들어진 스테이블 디퓨전이지만 그렇다고 엔비디아 이외 GPU로 스테이블 디퓨전을 실행할 수 없다는 건 아니다.
이미 인텔 GPU인 인텔 아크로 스테이블 디퓨전을 동작시키는 방법이나 M1, M2 칩 탑재 맥에서 실행하는 방법도 공개되고 있다. 엔비디아 GPU 테스트에 오토매틱 111(AUTOMATIC1111 Stable Diffusion web UI), AMD GPU 테스트에는 노드에이아이(Nod.ai’s Shark version), 인텔 GPU 테스트에는 스테이블 디퓨전(Stable Diffusion OpenVINO)을 사용했다.
같은 프롬프트, 스텝수, CFG(classifier-free guidance)를 사용해 512×512 픽셀 이미지를 10회 생성해 GPU마다 초당 반복 평균수를 취했다. 그 결과 엔비디아 GPU는 AMD나 인텔에 비해 뛰어난 성능을 발휘하고 있으며 고속 이미지 생성 허용 라이브러리(xFormers)를 사용하면 수십% 성능 향상을 나타낸다.
이번 조사에선 엔비디아 RTX 40 시리즈가 가장 빠른 결과를 보였고 이어 AMD 7900 시리즈, 엔비디아 RTX 30 시리즈 순이며 인텔 아크는 상당히 느린 결과를 나타냈다. 하지만 적절한 최적화로 AMD나 인텔 GPU에서 스테이블 디퓨전 실행이 더 빨라질 가능성은 충분히 남아 있다.
또 2048×1152 고해상도 이미지를 생성해 테스트한 결과를 보면 라이브러리(xFormers)에 의한 가속화 영향이 더 강해진다. 물론 여기에선 AMD GPU에선 동작시킬 수 없어 테스트하지 않았다.
머신러닝 트레이닝용 시스템을 제공하는 클라우드 기업인 모자이크ML(MosaicML)은 0부터 스테이블 디퓨전을 트레이닝하는 시간과 비용에 대해 자사 시스템을 사용하면 13일간 16만 달러 미만으로 학습이 가능하다고 보고하고 있다. 이 비용은 스테이블 디퓨전 개발사인 스테빌리티AI가 보고하는 것보다 2.5배나 줄어든 것이다. 관련 내용은 이곳에서 확인할 수 있다.