테크레시피

엔비디아 차세대 칩 블랙웰에 남은 기술적 과제

엔비디아가 지난 3월 발표한 GPU 아키텍처 블랙웰(Blackwell)은 2,080억 개에 이르는 트랜지스터를 포함하는 등 여러 혁신 기술이 적용됐다. 하지만 성능을 극한까지 추구한 결과 블랙웰에서 발열 등 문제가 발생하고 있다고 한다.

블랙웰 칩은 기존 AI 칩 설계와 크게 달라졌으며 칩 하나에 프로세서 2개와 여러 메모리 구성 요소를 실리콘, 금속, 플라스틱 소재와 결합해 구성하고 있다. 이로 인해 이전 세대인 호퍼(Hopper) 칩보다 크기가 2배로 증가했으며 탑재된 트랜지스터 수는 2.6배 증가한 2,080억 개에 달해 더 향상된 성능이 기대된다.

엔비디아 젠슨 황(Jensen Huang) CEO는 블랙웰 칩에 대한 수요가 급격히 증가하고 있다고 밝혔지만 관계자에 따르면 블랙웰 칩에는 여러 기술적 과제가 존재한다고 한다. AI 칩 제조에서는 완벽함이 요구되며 부품 하나에 결함이 생기면 심각한 문제가 발생할 수 있다. 블랙웰 칩은 기존 제품보다 더 많은 구성 요소를 탑재하고 있어 품질 문제 발생 가능성이 더 높아졌다는 지적이 나오고 있다.

또 수많은 구성 요소에서 발생하는 열은 패키지 내 다양한 부품이나 재료에 손상을 줄 위험이 있으며 최악의 경우 4만 달러로 추정되는 블랙웰 칩이 완전히 작동하지 않을 위험도 있다. 칩 제조 스타트업 셀레브라스시스템스(Cerebras Systems) 설립자인 앤드류 펠드먼(Andrew Feldman)은 칩 2개를 하나로 통합하는 기술을 개발하는 건 어렵고 그 기술을 배로 증가시키는 건 더 어렵다고 지적했다.

투자은행 UBS 분석가는 블랙웰 성능을 실현하기 위해 필요한 새로운 접근 방식은 제조 복잡성을 증가시키고 신뢰성과 성능에 영향을 미칠 수 있는 휨 현상 등 여러 문제를 일으켰다면서 이게 블랙웰 출시를 어렵게 만든 주요 요인이지만 엔비디아는 향후 수정 작업을 통해 2025년 예정된 출하 일정에 맞춰 칩 생산을 시작할 수 있을 것이라고 말했다.

이런 지적에 대해 젠슨 황은 8월 28일 칩 신뢰성을 향상시키기 위해 블랙웰 설계를 변경했다고 발표했다. 설계 변경에 따른 기능 변경은 필요하지 않았다고 한다. 또 코렛 크루스(Coral Cruz) CFO는 블랙웰 생산 확대가 순조롭게 진행되고 있으며 2025년 4분기에는 수십억 달러에 달하는 수익을 창출할 것으로 예상된다고 말했다.

보도에선 엔비디아는 최근 몇 년 동안 차세대 칩을 격년이 아닌 매년 출시하고 있다며 그로 인해 제조 문제를 신속하게 해결해야 한다는 압박이 회사 내에서 높아지고 있는 것으로 보인다고 지적했다. 엔비디아는 신제품 출시 빈도와 복잡성이 증가함에 따라 품질 또는 생산 문제로 인해 비용이 상승하거나 출하가 지연될 가능성이 있다고 전하고 있다. 관련 내용은 이곳에서 확인할 수 있다.

추천기사