인텔이 2023년 12월 정식 발표한 노트북용 14세대 코어 프로세서인 코어 울트라(Core Ultra)는 2023년 9월 발표된 메테오레이크(Meteor Lake) 아키텍처를 기반으로 한다. 이런 코어 울트라에는 AI 처리에 특화된 NPU가 탑재되어 있다.
코어 울트라에 탑재된 NPU는 NPU 3720이라고 불린다. NPU 3720에는 NCE 타일 2개가 탑재되어 있고 이들 유닛은 1사이클당 INT8으로 4096회 MAC를 수행할 수 있다. 또 NPU 3720 클록 속도는 1.16GHz로 비교적 낮지만 처리 속도는 최대 9.5 TOPS에 달한다.
기본적으로 NPU는 GPU와 마찬가지로 PCIe 디바이스처럼 동작하며 호스트로부터 명령을 받아 작동한다. 인텔은 커스텀 명령 프로세서를 구축하는 대신 32비트 마이크로컨트롤러를 사용해 NPU에 실시간 운영체제 명령을 내리고 있다. 더불어 NPU는 작업 관리자상에서 CPU나 GPU와 별도로 사용률을 모니터링할 수 있다.
각 NCE 타일에는 소프트웨어 관리용 SRAM 2MB가 탑재되어 있어 태그 비교나 가상 메모리 주소 변환 없이 SRAM 스토리지에서 데이터를 직접 꺼낼 수 있다. 이를 통해 머신 컴파일러와 소프트웨어에 부담을 주지 않고 데이터를 SRAM에 옮길 수 있다고 한다.
NCE 타일 MAC 배열은 MAC 처리 엔진(MPE) 512개로 나뉘어 있고 각 엔진은 사이클마다 INT8 곱셈 누산 연산 4회가 가능하다. 한편 FP16에서는 INT8 절반 레이트로 MAC가 실시된다.
NPU 연산 성능은 매트릭스 크기가 4096에 이르면 1349.39GFLOPS의 최고치를 찍지만 이를 넘어서면 내장 그래픽 성능에 다시 밀리게 된다. 또 NPU는 그래픽 렌더링 같은 행렬 곱셈을 포함한 처리를 잘 하지 못하는데 NPU 3720 처리 성능이 RX 6900 XT는 물론이고 2016년 출시된 GPU인 GTX 1080 성능에도 미치지 못한다.
한편 NPU는 스토리지에 비교적 높은 속도로 액세스할 수 있어 내장 그래픽에 비해 지연시간이 낮은 것으로 나타났다. 그럼에도 스테이블 디퓨전을 활용한 이미지 생성 속도를 비교하면 AMD RX 6900 XT가 가장 성능이 뛰어나고 그 다음이 코어 울트라 내장 그래픽, NPU 순이다.
보도에선 코어 울트라 NPU에 대해 기계학습 워크로드 성능 향상과 전력 소비 감소를 목표로 하며 INT8과 FP16에 초점을 맞췄다고 설명한다. 하지만 NPU 가속기는 본질적으로 범용 컴퓨팅 유연성이 부족해 특정 기계학습 모델을 실행할 수 없을 때가 있어 커스텀 가속기 설계 시에는 특정 기계학습 모델 실행을 위한 소프트웨어 생태계가 필요하다는 지적이다.
또 일부 기계학습 모델에서는 NPU 사용으로 전력 소비를 낮출 수 있지만 반드시 성능이 향상되는 건 아니다. 확실히 코어 울트라 내장 그래픽 전력은 최대 20W에 달하지만 NPU 전력은 7W를 넘나드는 일이 거의 없다. 하지만 높은 전력 소비를 대가로 내장 그래픽은 NPU를 능가하는 성능과 유연성을 제공할 수 있어 기계학습 워크로드를 실행하지 않는 한 내장 그래픽이 압도적으로 높은 성능을 발휘할 것이다. 물론 NPU가 특정 상황에서 유용할 수 있지만 이를 두고 AI PC라고 부르는 건 잘못됐다는 지적이다.
마지막으로 지난 15년간 GPU 성능이 비약적으로 발전했고 오늘날 GPU 컴퓨팅은 합리적으로 활용 가능해졌다며 NPU도 같은 진화를 겪기를 기대한다고 밝히고 있다. 관련 내용은 이곳에서 확인할 수 있다.