이 코딩 점수 실화입니까…

Claude Opus 4.7 코딩 벤치마크 1위 탈환 그래픽
TL;DR
  • Claude Opus 4.7이 SWE-bench Verified 87.6%, SWE-bench Pro 64.3%로 가장 강력한 일반 공개 LLM 자리를 다시 가져갔다.
  • CursorBench는 70%(전작 58% 대비 +12점), 실제 프로덕션 작업 처리량은 4.6 대비 약 3배로 보고됐다.
  • 비전 해상도가 2,576px(약 3.75MP)로 3배 이상 늘면서 XBOW 시각 인지 점수는 54.5%→98.5%로 점프했다.
  • Claude Code에는 다단계 리뷰용 /ultrareview와 새 기본값인 xhigh 사고 강도가 도입됐다.

2026년 4월 16일 공개된 Claude Opus 4.7은 단순한 마이너 업데이트가 아니다. 4.6에서 4.7로 가는 한 칸 사이에 SWE-bench Pro 점수가 10.9포인트 뛰었고, 같은 가격대에서 GPT-5.4 Pro를 6.6포인트 차이로 따돌렸다는 보도까지 나왔다. 누가 1위인지를 두고 다시 Anthropic·OpenAI·Google이 부딪치는 한가운데, 4.7이 어떤 카드를 들고 나왔는지 정리한다.

코딩 점수가 다시 흔들렸다

SWE-bench·CursorBench·Terminal-Bench 동시 1위

Anthropic이 직접 공개한 수치 기준으로 Claude Opus 4.7은 SWE-bench Verified 87.6%, SWE-bench Pro 64.3%, Terminal-Bench에서 모두 현시점 일반 공개 모델 중 1위다. 특히 SWE-bench Pro의 53.4%→64.3% 점프는 이번 세대에서 가장 큰 코딩 성능 상승폭이고, 같은 벤치마크에서 GPT-5.4 Pro와 6.6포인트의 격차를 만든 핵심 근거다.

CursorBench에서는 4.6의 58%에서 70%로 12포인트가 뛰었다. 단순한 점수 인플레이션으로 보기 어려운 이유는, 같은 모델로 처리한 실제 프로덕션 티켓 수가 약 3배로 늘었다는 보고가 함께 나왔기 때문이다. “감독 없이 맡길 수 있는 가장 어려운 코딩”이 어디까지 가능한지가 4.7의 핵심 셀링 포인트다.

Trend Insight — 가격은 입력 100만 토큰당 $5, 출력 $25로 4.6과 동일하다. 즉 같은 비용으로 더 어려운 작업을 더 길게 맡길 수 있게 된 셈이다. 코딩 에이전트를 운영 중인 팀이라면 “모델만 4.7로 바꿨더니 처리량이 늘었다”가 가장 먼저 체감되는 변화다.


비전 인식이 한 세대를 건너뛰었다

2,576px·3.75MP — 스크린샷을 바로 읽는다

이미지 입력 해상도가 긴 변 기준 1,568px(약 1.15MP)에서 2,576px(약 3.75MP)로 3배 이상 늘었다. UI 스크린샷, PDF 페이지, 다이어그램을 축소하지 않고 그대로 넣어도 텍스트와 컴포넌트를 잡아낸다는 의미다. XBOW가 측정하는 시각 인지 벤치마크에서 4.6의 54.5%가 4.7에서는 98.5%로 뛴 것도 같은 맥락이다.

실무 임팩트는 명확하다. 디자인 시안을 캡처해서 “이 화면을 React 컴포넌트로 만들어줘”라고 던질 때, 4.6에서는 작은 라벨·아이콘·아이디 텍스트를 자주 놓쳤지만 4.7은 거의 그대로 읽는다. QA가 버그 스크린샷을 그대로 붙여 넣고 원인 분석을 시키는 워크플로우도 신뢰도가 올라간다.

Trend Insight — 비전 점수가 단숨에 두 배 이상 뛴 모델은 흔치 않다. “스크린샷-투-코드”·”PDF-투-구조화 데이터”처럼 시각 입력에 의존하는 파이프라인은 모델 교체만으로 정확도가 눈에 띄게 올라갈 가능성이 높다.


Claude Code에 들어온 두 가지 신호

/ultrareview — 다단계 코드 리뷰 슬래시 명령

/ultrareview는 한 번의 호출로 끝나는 리뷰가 아니라, 단계별로 컨텍스트를 분리해 여러 패스로 코드를 본다. “널 체크 빠진 곳”을 찾는 패스와 “린트·컨벤션 위반”을 찾는 패스가 같은 컨텍스트를 두고 경쟁하지 않게 설계됐다. 사람 리뷰어가 1차·2차 리뷰를 나눠 보는 흐름을 모델 안으로 끌고 들어온 셈이다.

xhigh — high와 max 사이의 새 기본값

xhigh는 high와 max 사이의 사고 강도다. 100k 토큰 한도의 xhigh가 200k 한도의 4.6 max를 이미 앞선다는 데이터가 함께 공개됐다. Claude Code는 이 xhigh를 새 기본값으로 채택했고, 토큰 예산을 작업 단위로 잡는 task budgets API도 퍼블릭 베타에 들어갔다. “사고는 더 오래, 비용은 더 정밀하게”가 이번 세대의 운영 키워드다.

Trend Insight — 모델 자체보다 그 위에 깔리는 “하네스(harness)”가 점수를 만든다는 흐름이 이번 4.7에서 더 분명해졌다. 같은 모델·같은 가격이라도 /ultrareview 같은 슬래시 명령과 xhigh 같은 사고 강도 옵션을 잘 쓰는 팀과 그렇지 않은 팀의 결과 격차는 점점 더 벌어진다.


관련 글

출처

  1. Anthropic — Introducing Claude Opus 4.7
  2. VentureBeat — Anthropic releases Claude Opus 4.7
  3. GitHub Changelog — Claude Opus 4.7 GA
  4. Vellum — Claude Opus 4.7 Benchmarks Explained

AI Biz Insider · AI 트렌드 · aibizinsider.com


AI Biz Insider에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

코멘트

댓글 남기기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기