제일 센 AI만 골라서 막혔다…

규제 장벽 앞에서 멈춘 AI 모델과 그 사이를 통과하는 AI 모델을 표현한 일러스트

TL;DR

미국 정부가 사이버보안 벤치마크 점수를 기준으로 ‘가장 강한’ 프론티어 AI만 골라 규제 중 — 앤트로픽 Fable 5는 강제 오프라인, 오픈AI GPT-5.6은 정부 승인 20여 곳으로 제한.
반면 구글 제미나이 3.5 프로는 같은 벤치마크에서 점수가 낮아(제미나이 3.1 프로 터미널벤치 70.7% vs GPT-5.6 Sol 88.8%) 아무 규제 없이 7월 출시가 유력하다.
핵심 스펙은 200만 토큰 문맥(현존 최대)과 딥싱크(Deep Think) 추론 모드. 다만 6월에서 7월로 밀린 출시와 연구자 4명 이탈이 그림자다.
‘1등이라서’가 아니라 ‘1등이 아니라서’ 시장을 먹는 역설 — 규제가 엔지니어링보다 경쟁 구도를 더 크게 흔들고 있다.

프론티어 AI 경쟁에서 가장 앞선 모델이 오히려 시장에서 사라지고 있다. 앤트로픽의 Fable 5는 미국 정부 명령으로 17일째 오프라인이고, 오픈AI의 최신 GPT-5.6은 정부가 지정한 20여 개 기관만 쓸 수 있다. 그런데 이 빈자리를 노리는 건 ‘제일 센 모델’이 아니라, 그 기준을 살짝 밑도는 구글 제미나이 3.5 프로다. 성능이 조금 부족한 것이 오히려 출시 티켓이 되는, 낯선 시대가 열렸다.

정부가 ‘가장 센 AI’부터 껐다

시작은 6월 2일 행정명령이다. 겉으로는 출시 30일 전까지 모델을 자율 제출해 검토받는 틀이지만, 실제로는 성능이 일정 선을 넘은 모델만 골라 막는 ‘사실상의 역량 게이팅’으로 작동하고 있다. 문제는 그 선 — 사이버보안 벤치마크 임계값 — 이 한 번도 공개된 적이 없다는 점이다. 어떤 지표에서 몇 점을 넘으면 규제 대상인지, 어느 부처가 결정하는지, 심사가 얼마나 걸리는지 모두 미공개다.

앤트로픽 Fable 5 — 상용 프론티어 모델 첫 강제 셧다운

6월 12일 오후, 상무부는 수출통제 지시로 외국인의 Fable 5 접근을 차단하라고 명령했다. 사실상 전면 중단이다. 발단은 아마존 연구진이 미 당국에 시연한 우회 기법이었고(앤트로픽은 이를 ‘보편적이지 않은 좁은 사례’라 반박), 이후 보도는 더 무거웠다. NSA 국장은 상원 정보위 브리핑에서, Fable 5가 가중치를 공유하는 기반 모델 Mythos가 레드팀 훈련에서 NSA 기밀 시스템 대부분을 자율 침투했다고 증언했다. 6월 27일 기준 규제 해제는 임박했지만, 펜타곤·NSA 최종 승인은 아직 대기 중이다.

GPT-5.6 삼형제(Sol·Terra·Luna) — 정부 승인 20여 곳만

오픈AI의 새 모델 패밀리 GPT-5.6은 6월 25일 출시됐지만, 정부와 공유된 파트너 약 20곳으로 접근이 묶였다. 이유는 역시 사이버 역량이다. 플래그십 Sol은 오픈AI 내부 CTF(Capture the Flag) 평가에서 96.7%, 외부 지표인 터미널벤치 2.1에서 88.8%를 기록하며 자체 ‘준비 프레임워크’의 ‘높음(High)’ 위험 등급을 넘었다. 오픈AI조차 “이 방식이 장기 표준이 되어선 안 된다”고 공개 반발했지만, 앤트로픽과 달리 사전에 조건을 수용해 통제된 롤아웃을 택했다.

Trend Insight — 핵심은 ‘기준이 공개되지 않았다’는 사실이다. 전 백악관 AI 참모 딘 볼은 이를 두고 “의회를 거치지 않은 사실상의 강제 라이선스 체제”라고 규정했다. 개발자는 어떤 성능이 ‘너무 센’ 것인지 사전에 알 수 없고, 이의 제기 절차도 없다. 모델 접근성이 엔지니어링이 아니라 정책 변수로 바뀌었다는 뜻이다.

구글이 어부지리로 웃는 이유

그 결과 지금 프론티어 신모델을 규제 없이 내놓을 수 있는 유일한 대형 랩은 구글이다. 제미나이 3.5 프로는 애초에 한 번도 제한 대상에 오른 적이 없다. 규제로 비워진 자리를, 규제를 피한 모델이 채우는 그림이 만들어졌다.

200만 토큰 문맥 + 딥싱크(Deep Think)

제미나이 3.5 프로의 무기는 두 가지다. 첫째, 200만 토큰 문맥 창 — 현존 상용 모델 중 최대이며 경쟁작 대다수의 두 배 수준이다. 둘째, 가장 어려운 과학·수학·코딩 문제를 겨냥한 ‘딥싱크’ 추론 모드다. 딥싱크는 월 250달러 Ultra 요금제 전용으로 열린다. 가격은 이전 세대와 비슷한 수준(입력 100만 토큰당 약 15달러, 출력 약 60달러)이 예상되고, 딥싱크 모드에는 약 10배 프리미엄이 붙는 구조로 알려졌다.

낮은 사이버 점수가 오히려 ‘통과 티켓’

규제를 피한 진짜 이유는 성능 격차다. 구글의 직전 상용 모델 제미나이 3.1 프로는 터미널벤치 2.1에서 70.7%로, GPT-5.6 Sol(88.8%)보다 18%p 넘게 낮다. 정부가 주시하는 지표에서 ‘아직 그 선을 넘지 않았다’는 것이다. 역설적으로, 최고가 아니라는 사실 자체가 무규제 출시의 근거가 됐다. 다만 이는 어디까지나 이전 세대 점수 기준이며, 프로 등급의 실제 성능은 출시 후 평가받게 된다.

Trend Insight — Fable 5가 빠지며 생긴 ‘초장문 문맥’ 공백을 제미나이 3.5 프로의 200만 토큰이 정확히 겨냥한다. 6월 12일 이전 Fable 5의 긴 문맥에 워크플로를 맞춰 둔 개발자라면, 지금 가장 현실적인 대안이 바로 이 모델이라는 계산이 선다.

지연과 인재 유출, 7월이 진짜 시험대

기회가 열렸다고 해서 구글의 상황이 마냥 편한 것은 아니다. 정작 주인공인 제미나이 3.5 프로부터 일정이 밀렸고, 조직에서는 경고음이 울렸다.

6월에서 7월로 밀린 속사정

제미나이 3.5 프로는 원래 6월 출시가 목표였지만 7월로 연기됐다. 구글은 초기 테스터가 지적한 토큰 효율 문제와, 앞서 5월 19일 I/O에서 공개한 3.5 플래시의 롤아웃에서 얻은 교훈을 반영하기 위해서라고 설명한다. 플래시는 이미 제미나이 3.1 프로를 대부분의 코딩·에이전트 벤치마크에서 앞섰고(터미널벤치 2.1 76.2%), 프로는 더 어려운 추론과 초장문 검색에서 남은 격차를 메우는 역할을 맡는다.

제미나이 연구자 4명, 앤트로픽으로

6월 21~27일 주간, 시니어 제미나이 연구자 4명이 앤트로픽으로 이직을 알렸다. 규제와는 무관한 조직·제품 차원의 이슈지만, 7월 출시의 무게가 부쩍 커진 시점에 나온 신호라 뼈아프다. 최고의 모델을 무규제로 낼 수 있는 흔치 않은 기회를, 정작 흔들리는 조직으로 잡아야 하는 상황인 셈이다.

Trend Insight — 진짜 관전 포인트는 ‘출시 이후’다. 정부 평가자가 프로 등급의 사이버 성능을 직접 측정한 뒤에도 제미나이 3.5 프로가 계속 무규제로 남을지는 구글조차 답하지 못한 상태다. 오늘의 어부지리가 다음 달의 규제 대상이 될 수도 있다.

한국 기업·개발자가 챙길 3가지

이번 사건은 먼 나라 규제 이야기가 아니다. 프론티어 모델을 실무에 얹는 국내 팀이라면 세 가지를 다시 점검할 때다.

접근성 리스크가 새 변수다

특정 모델이 하루아침에 전 세계에서 끊길 수 있다는 것이 Fable 5로 증명됐다. 사전 통보도, 이의 절차도 없었다. 핵심 워크플로를 단일 프론티어 모델에 100% 종속시키지 말고, 대체 모델로 갈아탈 수 있는 추상화 계층을 미리 설계해 두는 편이 안전하다.

초장문 문맥이 기본값이 되는 흐름

200만 토큰 시대가 열리면 ‘문서를 잘게 쪼개 검색(RAG)하던’ 설계 전제가 흔들린다. 문맥에 통째로 넣을지, 여전히 RAG로 비용을 아낄지 — 정확도와 토큰 비용을 함께 저울질하는 재설계가 필요하다.

‘가장 센 모델’이 늘 최선은 아니다

규제·가격·지연을 모두 감안하면, 지금 안정적으로 쓸 수 있는 모델이 실무에서는 더 강하다. 벤치마크 1등을 줇기보다, 접근성이 보장되고 비용이 예측 가능한 모델을 기본값으로 두는 전략이 오히려 리스크를 줄인다.

Trend Insight — 규제가 기술만큼 중요한 변수가 된 시대다. 모델 선택은 이제 성능표만이 아니라 ‘지속 가능한 접근성’까지 함께 보는 의사결정으로 바뀌었다. 가장 똑똑한 모델보다, 내일도 확실히 켜져 있을 모델이 이긴다.

출처

AI Biz Insider · AI 트렌드 · aibizinsider.com

제일 센 AI만 골라서 막혔다…

정부가 ‘가장 센 AI’부터 껐다

앤트로픽 Fable 5 — 상용 프론티어 모델 첫 강제 셧다운

GPT-5.6 삼형제(Sol·Terra·Luna) — 정부 승인 20여 곳만

구글이 어부지리로 웃는 이유

200만 토큰 문맥 + 딥싱크(Deep Think)

낮은 사이버 점수가 오히려 ‘통과 티켓’

지연과 인재 유출, 7월이 진짜 시험대

6월에서 7월로 밀린 속사정

제미나이 연구자 4명, 앤트로픽으로

한국 기업·개발자가 챙길 3가지

접근성 리스크가 새 변수다

초장문 문맥이 기본값이 되는 흐름

‘가장 센 모델’이 늘 최선은 아니다

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

시간당 1,918원에 아이 맡긴다고?

맞는 말만 하다가 잃은 것…

Microsoft’s Newest AI Product Is 6,000 Humans

MS가 6천 명을 갈아넣은 이유

AI Biz Insider에서 더 알아보기

AI Biz Insider에서 더 알아보기