1조 코딩AI가 공짜로 풀렸다…

1조 파라미터 오픈웨이트 코딩 AI 모델을 시각화한 이미지
TL;DR
  • 문샷AI(Moonshot AI)가 6월 12일 1조(1T) 파라미터 오픈웨이트 코딩 모델 ‘Kimi K2.7 Code’를 허깅페이스에 공개했다. 라이선스는 수정 MIT(Modified MIT)다.
  • MoE 구조라 1조 파라미터 중 토큰당 320억(32B)만 활성화하고 맥락 창은 256K다. 직전 K2.6보다 추론 토큰을 약 30% 덜 쓴다고 주장한다.
  • API 가격은 입력 100만 토큰당 0.95달러, 출력 4달러로 클로드 오퍼스 4.8의 약 5분의 1 수준이다.
  • 단, 공개된 벤치마크는 전부 문샷 자체 지표다. SWE-bench 같은 독립 검증치는 아직 없고 “실제 저장소에선 안 맞는다”는 현장 반응도 나왔다.

오픈웨이트 코딩 모델 경쟁이 다시 한 번 가격표를 흔들었다. 이번엔 중국 문샷AI다. 1조 파라미터짜리 코딩 전용 모델의 가중치를 통째로 풀어버렸고, API 단가는 폐쇄형 플래그십의 5분의 1이다. 숫자만 보면 ‘게임 끝’처럼 들린다. 그런데 그 숫자가 어디서 나왔는지를 따지는 순간, 이야기는 조금 달라진다.

1조 파라미터가 통째로 풀렸다 — Kimi K2.7 Code

문샷AI는 6월 12일 ‘Kimi K2.7 Code’를 허깅페이스에 오픈웨이트로 공개했다. 지금 내려받을 수 있는 코딩 모델 중 손에 꼽게 큰 모델이다. 핵심은 ‘챗봇’이 아니라는 점이다. 사용자와 대화하라고 만든 게 아니라, 저장소를 읽고 변경을 계획하고 여러 파일을 고치고 테스트를 돌린 뒤 깨진 곳을 수정하는, 여러 단계에 걸친 소프트웨어 작업(에이전트형 코딩)에 맞춰 튜닝됐다.

스펙 — 크지만 ‘가볍게’ 도는 구조

전체 파라미터는 1조지만, 전문가 혼합(MoE) 방식이라 토큰 하나를 처리할 때 실제로 켜지는 건 320억(32B)뿐이다. 전문가는 384개(토큰마다 8개 선택 + 공유 전문가 1개), 맥락 창은 256K(262,144 토큰)다. 이미지를 입력으로 읽는 MoonViT 비전 인코더도 들어 있다. 다만 운영 제약이 분명하다. 추론(thinking) 모드가 강제라 끄면 API 오류가 나고, 샘플링은 temperature 1.0, top_p 0.95로 고정돼 있다. 자유도가 큰 워크플로엔 제약이 될 수 있는 부분이다.

K2.6 대비 — ‘더 싸고 더 잘한다’는 주장

문샷이 내세우는 서사는 “같은 일을 더 적은 토큰으로”다. 맥락 창은 K2.6과 같은 256K를 유지하면서 추론 토큰 사용량을 약 30% 줄였다고 한다. 긴 에이전트 실행의 비용을 직접 떨어뜨리는 지점이다. 자체 측정 점수도 일제히 올랐다. Kimi Code Bench v2는 50.9에서 62.0으로(+21.8%), Program Bench는 +11.0%, MLS Bench Lite는 +31.5%, MCP Mark Verified는 +11.4% 상승했다고 밝혔다.

Trend Insight — 토큰 효율이 진짜라면 그 효과는 ‘리더보드 점수’보다 ‘월말 청구서’에서 먼저 드러난다. 30% 절감이 사실인지 확인하는 가장 빠른 길은, 실제로 돌려보고 토큰 소비를 직접 세어보는 것이다.


진짜 쟁점 — 파격적 가격 vs 검증 안 된 점수

가격은 분명한 무기다. 문샷 API 기준 입력 100만 토큰당 0.95달러, 출력 4달러, 캐시 적중 토큰은 0.19달러다. 클로드 오퍼스 4.8(입력 5달러, 출력 25달러)과 비교하면 약 5분의 1 수준이다. 오픈웨이트라 직접 서버에 올려(vLLM, SGLang, KTransformers 등) 돌리는 것도 가능하다. 다만 가중치가 수백 기가바이트(한 리뷰 기준 약 595GB)에 달해, 자체 구동에는 만만치 않은 하드웨어가 필요하다는 현실도 함께 따라온다.

문제는 숫자의 ‘출처’다. 위에서 인용한 상승 폭은 전부 문샷이 직접 만든 벤치마크에서 나온 값이고, 그것도 추론 모드를 켠 상태로 측정됐다. SWE-bench Verified, Terminal-Bench 같은 표준 독립 지표에는 6월 중순까지 K2.7의 점수가 올라오지 않았다. 즉 클로드, GPT, 딥시크와의 진짜 ‘같은 잣대’ 비교는 아직 존재하지 않는다. 실제로 벤처비트(VentureBeat)는 일부 개발자들이 “실제 코딩 현장에선 이 벤치마크가 잘 들어맞지 않는다”고 말했다고 전했다.

Trend Insight — 역설적이게도 오픈웨이트의 가장 큰 장점이 여기서 빛난다. 점수를 의심할 수 있다면, 직접 내려받아 내 저장소에서 재보면 된다. 폐쇄형 모델은 회사가 준 숫자를 믿어야 하지만, 열린 모델은 사용자가 검증할 수 있다.


CEO·개발자 점검 포인트 — 도입 전에 따져볼 것

세 모델을 한 줄로 비교하면 성격이 또렷해진다. Kimi K2.7 Code는 ‘가격'(오픈웨이트, 256K, 입력 0.95달러)으로, 클로드 오퍼스 4.8은 ‘신뢰'(비공개, 100만 맥락, SWE-bench Verified 약 88.6%의 독립 검증)로, 딥시크 V4는 ‘절충'(오픈웨이트에 검증된 점수)으로 승부한다. 고빈도·대량의 에이전트 코딩을 돌리고 토큰 단가에 민감하다면 K2.7의 가격은 매력적이다. 반대로 숨은 버그 하나의 비용이 큰 단발성 추론이라면, 검증된 플래그십이 여전히 안전하다.

지금 당장 점검할 3가지

첫째, 평가는 리더보드가 아니라 ‘내 저장소’에서 한다. 실제 업무 태스크의 성공률, 도구 호출의 안정성, 숨은 결함을 만들어내는 빈도를 직접 측정하는 편이 안전하다. 둘째, 운영 제약을 점검한다. 추론 모드 강제와 샘플링 고정값이 기존 파이프라인과 충돌하지 않는지 미리 확인해야 한다. 셋째, 비용 구조를 비교한다. 수백 GB 가중치를 셀프호스팅할 때 드는 GPU 비용과, 문샷 API 단가를 같은 작업량 기준으로 나란히 놓고 따져야 한다. ‘로컬이 무조건 싸다’는 가정은 트래픽이 적을수록 깨지기 쉽다.

Trend Insight — 2026년 오픈웨이트 코딩 모델은 ‘가격’으로 문을 열고 ‘검증’으로 살아남는다. Kimi K2.7 Code는 문은 확실히 열었다. 남은 건 독립 벤치마크가 도착했을 때, 그 문 안의 풍경이 광고와 같은지다.


관련 글

출처

  1. Fello AI — Kimi K2.7 Code Review: Moonshot AI’s 1T Open-Weight Coding Model
  2. VentureBeat — Kimi K2.7 Code cuts thinking tokens 30%, practitioners say benchmarks don’t check out
  3. LLM Stats — Kimi K2.7 Code (model overview)

AI Biz Insider · AI 트렌드 · aibizinsider.com


AI Biz Insider에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

코멘트

댓글 남기기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기