엔비디아 버린 중국이 해냈다…

화웨이 어센드 910C 칩과 딥시크 V4-Pro AI 모델 사후학습을 상징하는 AI 반도체 이미지
TL;DR
  • 화웨이 등 연구팀이 자국 칩 어센드 910C 1,000여 개로 딥시크 최대 모델 V4-Pro(1.6조 파라미터)의 ‘풀파라미터 사후학습’에 성공했다.
  • 그동안 중국 칩은 ‘추론’은 가능해도 훨씬 복잡한 ‘학습’에는 한계가 있었는데, 이 벽을 처음으로 정면 돌파한 사례다.
  • 어센드 910C는 엔비디아 H100 대비 약 60% 성능으로 평가되지만, 1,000개 규모 클러스터로 격차를 물량으로 메웠다.
  • 미 상무부가 “어센드 칩 사용은 전 세계 어디서든 수출통제 위반”이라고 못 박은 가운데 나온 결과라 파장이 크다.

엔비디아 GPU 없이 1.6조 파라미터짜리 모델을 길들일 수 있을까. 6개월 전만 해도 업계의 답은 “아직”이었다. 그런데 2026년 6월 5일, 선전시 정부가 올린 한 장의 소셜미디어 게시물이 그 전제를 흔들었다. 화웨이와 중국 연구기관들이 자국산 어센드 910C 칩만으로 딥시크의 최신 플래그십 모델 사후학습을 끝냈다는 발표였다. 단순한 ‘돌렸다’가 아니라, 모델의 두뇌 전체를 다시 다듬는 가장 어려운 작업을 해냈다는 점이 핵심이다.

엔비디아 없이 1.6조 파라미터를 길들였다

무엇을 해냈나

연구팀은 딥시크의 역대 최대 모델인 V4-Pro(1.6조 파라미터)를 최소 1,000개의 화웨이 어센드 910C 칩으로 구성된 컴퓨팅 클러스터 위에서 돌렸다. 그리고 ‘풀파라미터(full-parameter) 사후학습’을 수행했다고 밝혔다. 일부 레이어만 살짝 손보는 식의 편법이 아니라, 모델 아키텍처 전체를 빠짐없이 업데이트하고 정교화했다는 의미다. 이 프로젝트는 화웨이, 선전 루프지역연구원, 하얼빈공대 선전캠퍼스, 선전 빅데이터연구원이 공동으로 진행했다.

왜 ‘사후학습’이 분수령인가

AI 모델 구축은 크게 세 단계로 나뉜다. 방대한 데이터를 흡수해 ‘말하는 법’을 배우는 사전학습(pre-training), 인간의 지시·안전 규칙·특정 과제를 따르도록 ‘일하는 법’을 가르치는 사후학습(post-training), 그리고 완성된 모델을 실제로 굴려 답을 내는 추론(inference)이다. 중국 칩은 그동안 추론에서는 성과를 냈지만, 사후학습은 차원이 다른 영역이었다.

Trend Insight — 선전시 정부 설명을 빌리면, 기존 추론은 “질문을 넣으면 답이 나오는 일방통행 도로”였다. 반면 사후학습은 모델이 스스로 되돌아보고 조정하도록 “복잡한 입체교차로와 순환로를 더한 것”이라 연산·통신 부하가 몇 배로 뛴다. 이 부하를 자국 칩으로 버텨냈다는 점이 진짜 뉴스다.


성능 격차를 ‘물량’과 ‘저정밀’로 메우다

어센드 910C는 딥시크 자체 연구 기준 엔비디아 H100 추론 성능의 약 60% 수준으로 평가된다. 칩 한 장의 성능만 보면 분명 열세다. 그러나 1,000개 이상을 묶은 대규모 클러스터로 절대 연산량을 끌어올려 1.6조 파라미터 모델을 감당했다. 칩의 질적 열세를 시스템 규모로 상쇄하는 전형적인 ‘물량 전략’이다.

FP8을 버리고 MXFP4로

기술적으로 더 흥미로운 대목은 정밀도 포맷 전환이다. 딥시크는 사후학습과 추론에 MXFP4 같은 개방형 저정밀(low-precision) 포맷을 채택하며, 엔비디아 FP8 생태계 의존도를 낮추고 있다. 저정밀 연산은 메모리·연산 부담을 줄여 상대적으로 약한 칩에서도 거대 모델을 다룰 여지를 넓힌다. 즉, ‘엔비디아에 맞춰 설계된 소프트웨어’에서 ‘여러 하드웨어에 적응하는 소프트웨어’로 무게중심을 옮기는 중이다. V4-Pro의 출력 토큰 가격은 100만 토큰당 3.48달러, 더 작은 284B 규모의 V4-Flash는 0.28달러로 책정됐다.

Trend Insight — 하드웨어 1등을 못 쓰면, 소프트웨어로 하드웨어를 갈아탈 수 있게 만든다. MXFP4 같은 개방형 포맷 채택은 단기 성능 자랑이 아니라, 특정 칩 벤더에 묶이지 않는 ‘이식성’을 확보하려는 장기 포석에 가깝다.


미국 제재가 만든 역설, 그리고 한국이 봐야 할 것

이번 성과는 미 상무부가 “화웨이 어센드 AI 칩을 전 세계 어디서 쓰더라도 미국 수출통제 위반”이라는 지침을 내놓은 와중에 나왔다. 또한 미 정부는 딥시크를 비롯한 중국 AI 기업에 대한 지식재산 탈취 의혹을 키우는 상황이다. 압박이 거셀수록 자국 칩으로 학습까지 끝내려는 ‘자립’ 동기는 오히려 강해지는, 일종의 역설적 효과가 드러난 셈이다.

물론 과대평가는 금물이다. 1,000개 클러스터의 전력·수율·실제 학습 안정성, 그리고 어센드 910C가 여전히 일부 해외 부품에 의존한다는 점은 풀어야 할 숙제다. 그러나 ‘중국 칩은 추론용’이라는 통념의 천장이 깨졌다는 사실 자체는 분명한 변곡점이다.

Trend Insight — AI 인프라 시장이 ‘엔비디아 단일 표준’에서 ‘다극 체제’로 갈 가능성이 커졌다. 국내 기업이라면 모델·프레임워크를 특정 GPU·정밀도 포맷에 과도하게 종속시키지 말고, 멀티-하드웨어 이식성을 미리 설계 변수에 넣어두는 편이 안전하다.


관련 글

출처

  1. South China Morning Post — Huawei chips refine DeepSeek model in major leap for China’s AI self-reliance (2026.06.05)
  2. Tom’s Hardware — DeepSeek launches 1.6 trillion parameter V4 on Huawei chips as U.S. escalates AI theft accusations
  3. Council on Foreign Relations — DeepSeek V4 Signals a New Phase in the U.S.-China AI Rivalry

AI Biz Insider · AI 트렌드 · aibizinsider.com


AI Biz Insider에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

코멘트

댓글 남기기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기