테크레시피

AI 전용 프로세서 대중화 시대 열린다

ARM 머신러닝(ARM Machine Learning)과 ARM 오브젝트 디텍션(ARM Object Detection)은 ARM이 최근 발표한 인공지능 처리용 프로세서다.

ARM 오브젝트 디텍션은 얼굴이나 물체를 감지하기 위해 최적화된 프로세서. 풀HD에 60프레임을 이용한 실시간 탐지는 물론 기존보다 80배에 이르는 DSP 성능을 지니고 있다. 이 제품은 충돌 안전 기능을 지원하는 드론이나 보안 카메라 같은 사물인터넷 제품에 쓰이게 될 전망이다.

함께 발표한 ARM 머신러닝은 자동 번역이나 얼굴 인식 같은 일반 인공지능 처리를 고속화할 수 있게 해주는 전용 프로세서다. 모바일 기기에서 사용하면 초당 4.6조 회가 넘는 작업을 수행할 수 있다. 기존과 견주면 최소 2배에서 4배에 이르는 뛰어난 전력 효율을 발휘한다. 이 제품은 스마트폰 같은 모바일 기기에 쓰이게 될 것으로 보이며 올해 안에 나올 예정이다.

물론 ARM은 이미 인공지능 처리 자체를 단말에서 처리할 수 있게 해주는 기술인 다이내믹큐(DynamiQ)를 개발한 바 있다.

다이내믹큐는 유연성과 다기능을 겸비한 기술로 에지에서 클라우드까지 다양한 기기에서 멀티코어 환경을 재정의할 수 있게 하려는 ARM의 의도를 담고 있다. ARM의 기존 빅리틀(big.LITTLE) 그러니까 고성능 저전력 기술은 기존에는 고성능 코어와 저전력 코어를 2개나 혹은 4개씩 같은 디자인으로 더해 2가지 ARM 프로세서를 쓸 수 있게 했다. 다이내믹큐는 이런 빅리틀 기술을 발전시켜 지금까지는 불가능했던 조합, 예를 들어 1+7이나 1+3 같은 구성을 할 수 있게 해준다. 환경에 따라 최적의 구성을 할 수 있는 것.

다이내믹큐 기술로 설계한 코어텍스-A 프로세서는 기존 코어텍스-A73 기반 시스템보다 앞으로 3∼5년 안에 인공지능 성능을 50배까지 끌어올릴 수 있고 CPU와 가속기도 10배 가량 빠른 반응을 기대할 수 있어 컴퓨팅 성능을 10배까지 높일 수 있다. 또 SoC를 설계할 때에도 단일 클러스터에서 8코어까지 확장할 수 있고 코어마다 다른 성능이나 전력 특성을 내게 할 수 있다. 또 머신러닝과 인공지능 앱과 관련한 빠른 대응을 할 수 있다.

다이내믹큐는 ADAS 솔루션에 대한 응답성도 높기 때문에 안전성을 높일 수 있고 ASIL-D 호환 시스템 구축이나 장애가 발생할 때 안전한 운용을 기대할 수 있는 등 안전한 자동운전 시스템에 활용될 수 있다.

ARM이 이번에 발표한 ARM 머신러닝과 2세대 ARM 오브젝트 디텍션은 모두 인공지능에 사용하는 기술인 머신러닝 관련 처리를 클라우드 쪽이 아닌 단말에서 해결할 수 있게 해준다. 다이내믹큐에서 보여준 방향성을 더 극명하게 보여준 것으로 앞으로 점차 늘어나는 머신러닝 처리를 클라우드가 아닌 단말 쪽에서 해결하는 흐름을 가속화하려는 것이다.

지금은 높은 처리능력을 필요로 하는 머신러닝 처리는 클라우드를 통해 해결하는 게 보통이다. 하지만 클라우드를 이용하면 데이터를 송수신하는 과정에서 응답속도나 데이터 전송량 등 걸림돌이 발생할 수 있다. 그 뿐 아니라 데이터를 보낼 때 해킹 우려도 있다. 이에 비해 머신러닝 처리에 특화된 AI 전용 프로세서를 이용하면 단말 자체에서 머신러닝 처리를 할 수 있는 건 물론 응답성이나 보안 측면에서도 유리하다.

ARM 측에 따르면 이번에 발표한 프로세서는 모두 기존 CPU나 GPU 아키텍처를 근거로 하지 않은 아예 새로운 기술이라고 한다. 또 모바일 기기용 SoC로 쓸 수 있을 뿐 아니라 사물인터넷 기기에서도 쓸 수 있다고 한다.

화웨이의 경우 머신러닝 처리를 할 수 있는 AI 전용 프로세서 기린970(Kirin 970)을 선보인 바 있다. 이 제품은 화웨이 산하 하이실리콘테크놀러지(Hisilicon Technologies)가 만든 것으로 코어텍스-A73과 코어텍스-A53 각각 4코어에 GPU로 말리-G72(Mali-G72)를 채택했다. TSMC의 10nm 제조공정으로 만들었다. 기존 기린960과 견주면 다이 크기는 40% 줄었고 전력 효율은 20% 끌어올렸다고 한다.

물론 가장 큰 특징은 SoC 자체에 NPU(Neural network Processing Unit)라고 불리는 AI 전용 프로세서를 탑재했다는 것이다. 화웨이에 따르면 NPU를 이용하면 CPU보다 25배에 이르는 AI 관련 연산 처리를 할 수 있고 전력 효율은 50배에 이른다고 한다. NPU의 연산 성능은 FP16에서 1.92TFLOPS다. 지원하는 딥러닝 개발 프레임워크는 텐서플러우와 텐서플로우 라이트, 카페(2)다. 이런 점을 들어 화웨이 측은 2017년 발표 당시 이 제품을 세계 첫 모바일 AI 프로세서라고 강조하기도 했다.

애플도 마찬가지다. 애플은 아이폰X와 8에 SoC인 AII 바이오닉을 통해 머신러닝 처리를 할 수 있는 전용 프로세서를 담은 바 있다. A11 바이오닉은 코어 6개, 트랜지스터 43억 개를 얹은 칩으로 기존 A10 퓨전보다 30% 빠르지만 소비전력은 절반으로 줄일 수 있다. 고성능 코어 2개, 고효율 코어 4개를 탑재했는데 고성능 코어의 경우 기존보다 성능은 25%, 고효율 코어는 70%가 높아졌다고 한다. GPU의 경우 기존보다 30% 빨라졌다. 가장 큰 특징은 역시 뉴럴엔진(Neural Engine)을 탑재했다는 것이다. 뉴럴엔진은 얼굴 인식 같은 비전 컴퓨팅 처리, 음성인식과 자연어 처리 같은 인공지능 관련 처리에 특화된 AI 전용 프로세서다. 초당 6,000억 번에 달하는 작업을 처리할 수 있다고 한다.

다만 이런 프로세서는 하이엔드 모델에 한정 적용됐다. 이에 비해 ARM이 발표한 제품 중 ARM 머신러닝 같은 제품은 엔트리 레벨 모바일 기기까지 AI 프로세서를 퍼뜨리는 역할을 할 것으로 보인다. 저가 단말에서도 AI 프로세싱을 할 수 있게 된다는 얘기다.

ARM은 인공지능 기술을 처리할 수 있는 기기를 확장하려 한다. 만일 모든 사용자가 매일같이 3분 가량 음성 검색 기능을 이용하면 구글 서버 수는 2배가 되어야 한다고 한다. ARM은 인공지능 기술을 처리할 수 있는 AI 전용 프로세서 개발이 반도체 개발의 트렌드라고 말한다. 그동안 단순 고성능과 절전에 초점을 맞춰온 모바일 반도체 개발 트렌드의 흐름 자체가 바뀔 수 있다는 것이다.

실제로 이들 기업 외에도 인텔 역시 클라우드에 의존하지 않고 칩 자체에서 자율 학습할 수 있는 AI 프로세서인 로하이(Loihi)를 개발 중이다. 로하이는 인텔이 개발 중인 뉴로모픽 컴퓨팅을 위한 칩(인간의 뇌 구조를 응용한 AI 반도체 기술을 뉴로모픽 컴퓨팅(Neuromorphic Computing)이라고 한다).

뇌의 신경 네트워크는 전기 신호를 통해 정보를 전달한다. 그물망처럼 둘러친 뉴런 사이에 생긴 스파크가 가중치를 조절해가며 변화를 저장한다. 인간이 가진 지능은 뇌의 신경회로와 상호 작용에 의해 발생하는 것이다. 인텔 역시 클라우드를 이용하지 않고 칩을 통해 자가학습할 수 있는 반도체를 개발하려 한다. 주위에 있는 다양한 정보를 통해 피드백을 얻고 인간의 뇌처럼 학습할 수 있게 하려는 것이다.

인텔은 지난 6년간 관련 기술을 개발해왔고 코드명 로하이를 프로토타입 칩을 만들고 있다. 로하이는 학습과 추론 과정을 칩에 결합할 수 있어 클라우드에 데이터를 보낼 과정을 기다릴 필요 없이 자율적이면서도 실시간으로 환경 적응력을 높일 수 있다. 로하이는 신경과 비슷한 비동기 코어 구조를 지니고 있으며 코어 네트워크마다 매개변수를 조절할 수 있게 프로그래밍 가능한 학습 엔진을 갖추고 있다. 14nm 제조공정을 통해 만들며 13만 개 신경과 1억 3,000만 개 시냅스로 이뤄져 있다. 경로를 설정하거나 사전 학습 혹은 동적 패턴 등을 학습할 수 있는 등 문제에 대응할 수 있는 알고리즘을 포함한다. 인텔은 로하이 칩이 기존보다 100만 배에 이르는 학습 향상률을 기록 중이라고 밝힌 바 있다. 또 에너지 효율은 1,000배에 이른다고 설명하고 있다. 물론 로하이 칩은 개발 중이며 올해 상반기부터 연구기관 등에 제공되어 개발 정보를 공유하게 될 것이라고 한다.

그 밖에 아마존은 자사의 음성인식 스피커인 에코 시리즈에 들어간 음성비서 기능인 알렉사(Alexa)의 품질을 끌어올리고 응답시간을 줄이기 위해 AI 전용 칩 설계에 착수했다는 보도가 나오기도 했다. 칩 제조 경험이 없는 만큼 아마존이 자체 생산은 어려울 것으로 전망되고 있지만 클라우드와 연동하기 전에 더 많은 데이터 처리를 위한 장치를 목표로 음성인식 기능을 높이고 응답속도를 높이려는 것이다.

반도체 기업은 고성능 인공지능 실현을 위해 AI 전용 프로세서 개발이 필수적이라고 말한다. 뛰어난 주위 인식 능력을 요구하는 자율주행 자동차나 건강 상태를 파악할 수 있게 해주는 건강 관리 시스템 혹은 작물 생육 상태를 파악해야 하는 농업용 드론, 증강현실 기술, 사물인터넷 관련 기기까지 활용 범위가 계속 늘어날 것이기 때문이다.

추천기사