AI 많이 쓸수록 좋은 줄 알았다

AI 토큰 비용 효율화 트렌드 — 작은 모델과 큰 모델, 비용 저울 개념 일러스트

TL;DR

‘AI를 최대한 많이 써라’던 토큰맥싱(tokenmaxxing) 열풍이 2026년 들어 빠르게 식고 있다. 청구서가 도착하자 기업들이 ‘사용량’이 아니라 ‘결과’에 돈을 쓰기 시작했다.
AI 스타트업 Lindy의 CEO는 트래픽 100%를 Anthropic Claude에서 더 싼 오픈웨이트 모델 DeepSeek로 옮겼다. 소형 모델 전환과 라우팅이 본격화되는 신호다.
효율 혁신은 대형보다 소형 모델에 유리하게 작동한다. Qwen 3.5의 9B 모델이 120B급 성능에 근접했고, 데이터 큐레이션만으로 답변 생성 효율을 35배 끌어올린 사례도 나왔다.
역설적으로 OpenAI 내부 Codex 토큰 사용량은 폭증했다(리서치 부서 56배). 핵심은 ‘덜 쓰기’가 아니라 ‘제대로 쓰기’, 즉 토큰 규율(token discipline)이다.

불과 반년 전만 해도 AI 업계의 미덕은 ‘많이 쓰는 것’이었다. 일부 회사는 사내 토큰 사용량 순위표까지 띄워 놓고 개발자들에게 ‘AI를 더 써라’고 독려했다. 그런데 2026년 6월, 분위기가 정반대로 돌아섰다. 미국 경제매체 CNBC는 사용자들이 ‘토큰맥싱’에서 ‘효율’로 이동하면서 OpenAI와 Anthropic이 새로운 현실에 직면했다고 보도했다. 무엇이 바뀐 걸까. 그리고 이 변화는 당장 AI 청구서를 들여다보는 한국 기업과 개발자에게 무엇을 의미할까.

토큰맥싱은 어떻게 식었나

‘많이 쓰면 장땡’이던 시절

토큰맥싱은 2026년 초에 정점을 찍은 흐름이다. 결과를 따지지 말고 일단 AI를 최대한 많이 쓰라는 분위기 속에서, 일부 기업은 직원별 토큰 소비량을 사내 리더보드로 공개하며 사용을 경쟁적으로 부추겼다. 더 많은 토큰은 곧 더 적극적인 AI 활용이고, 그것이 곧 생산성이라는 믿음이 깔려 있었다. 모델 가격이 빠르게 떨어지던 시기였던 만큼, ‘일단 쓰고 보자’는 전략이 합리적으로 보였다.

청구서가 도착했다

반전은 월말 청구서와 함께 찾아왔다. 기업들은 자신들이 ‘결과’가 아니라 ‘사용량’에 돈을 내고 있었다는 사실을 깨달았다. CNBC에 따르면 AI 스타트업 Lindy의 CEO는 회사 트래픽 전량을 Anthropic Claude에서 중국산 오픈웨이트 모델 DeepSeek로 전환했다. 더 싸고, 가중치가 공개돼 있으며, 자사 작업에는 충분하다는 판단이었다. 야후 파이낸스 역시 전문가들을 인용해 ‘토큰맥싱은 한물갔다’고 진단하며, 이 변화가 Nvidia·OpenAI·Anthropic을 비롯한 AI 호황 전반에 어떤 영향을 줄지 주목했다.

Trend Insight — 가격이 싸지면 더 많이 쓰는 게 보통이지만, AI는 사용량이 너무 빠르게 늘어 ‘저렴한 단가 × 폭발적 사용량’이 결국 큰 비용으로 돌아왔다. 단가 인하가 비용 절감으로 이어지지 않는 역설이 토큰맥싱의 종말을 앞당겼다.

작고 싼 모델의 반격

효율은 소형 모델 편이다

비용 압박이 커지자 시선은 자연스럽게 더 작고 효율적인 모델로 향했다. 흥미로운 점은, 최근의 효율 혁신이 거대 프런티어 모델보다 아키텍처가 최적화된 소형 모델에 더 큰 이득을 준다는 것이다. Qwen 3.5의 9B 모델은 특정 벤치마크에서 120B급 모델과 맞먹는 성능을 냈고, 업계에서는 ‘작년에 70B가 하던 일을 올해는 7B가 한다’는 말이 나온다. 데이터 큐레이션 전문 업체 Datology는 학습 데이터를 잘 다듬어 모델이 더 간결하게 답하도록 만들면, 성능 저하 없이 답변 생성 효율을 35배까지 높일 수 있다고 주장했다. 이는 단순한 벤치마크 점수가 아니라 실제 서빙 비용과 응답 지연에 직결되는 이야기다.

라우팅의 부상

또 하나의 축은 ‘모델 라우팅’이다. 모든 요청을 최고가 모델에 던지는 대신, 복잡한 작업에만 프리미엄 모델을 배정하고 나머지는 더 싸거나 작은 모델, 혹은 오픈웨이트 모델로 처리하는 방식이다. 한 튜링상 수상자 출신 구글 연구자는 2026년 초 발표한 논문에서, AI 기업이 수익성에 도달하지 못하게 막는 가장 큰 경제적 병목으로 ‘추론 비용(inference cost)’, 즉 응답 한 건을 생성하는 데 드는 연산 비용을 지목했다. 라우팅과 소형 모델 전환은 바로 이 병목을 정면으로 겨냥한 대응책이다.

Trend Insight — ‘가장 똑똑한 모델 하나’를 고르는 시대에서 ‘작업에 맞는 모델을 라우팅하는’ 시대로 넘어가고 있다. 모델 선택이 단일 결정이 아니라 비용·품질·지연을 저울질하는 설계 문제로 바뀌었다.

그런데 정작 AI 랩들은 더 쓴다

여기서 결정적인 역설이 등장한다. 비용 효율이 화두인 와중에도, 정작 최전선 AI 랩의 내부 사용량은 폭증하고 있다. OpenAI 경제연구팀(Economic Research)이 공개한 자료에 따르면, 사내 코딩 에이전트 Codex의 부서별 출력 토큰 사용량 중앙값은 2025년 11월 대비 2026년 6월 기준으로 리서치 부서가 56배, 고객지원이 32배, 엔지니어링이 27배 늘었고, 비교적 완만했던 법무 부서마저 13배에 달했다. 무제한 사용 권한이 있던 OpenAI 직원들조차 2025년 말까지는 AI를 한참 덜 쓰고 있었다는 뜻이기도 하다.

이 두 흐름은 모순처럼 보이지만 사실 같은 메시지를 가리킨다. 사용량이 폭증한 영역은 단발성 채팅이 아니라, 검토 루프와 도구, 지속적인 워크플로가 받쳐 주는 장기 실행형 작업들이었다. 즉 ‘AI를 덜 쓰자’가 아니라 ‘AI가 실제로 값을 하는 곳에 집중적으로 쓰자’는 것이다. 토큰맥싱의 반대말은 토큰 굶기기(token starvation)가 아니라 토큰 규율(token discipline)이다.

Trend Insight — 진짜 변화는 총량의 감소가 아니라 ‘토큰당 성과(outcome per token)’라는 새 잣대의 등장이다. 같은 토큰으로 더 큰 결과를 내는 조직과 그렇지 못한 조직의 격차가 벌어지기 시작했다.

한국 기업·개발자를 위한 체크리스트

이 트렌드는 거대 AI 랩만의 이야기가 아니다. 매달 늘어나는 API 청구서를 마주하는 국내 스타트업과 중소기업, 그리고 사이드 프로젝트를 돌리는 개발자에게도 곧바로 적용된다. 첫째, 토큰 사용량 자체를 KPI로 삼지 말고 ‘토큰당 성과’를 측정하라. 어떤 기능이 비용 대비 실제 가치를 만드는지부터 가려내야 한다. 둘째, 반복적이고 정형화된 작업은 소형·오픈웨이트 모델로 내리고, 정말 어려운 추론과 장기 작업에만 프리미엄 모델을 배정하는 라우팅 구조를 설계하라.

셋째, ‘비싼 모델 = 항상 정답’이라는 가정을 버려라. Qwen·DeepSeek·Gemma 계열 오픈웨이트 모델은 특정 작업에서 이미 충분한 품질을 제공하며, 온디바이스나 자체 호스팅으로 단가를 크게 낮출 수 있다. 넷째, 프롬프트와 출력 길이를 의식적으로 관리하라. 불필요하게 장황한 응답은 곧 비용이다. 간결성을 유도하는 것만으로도 효율이 크게 개선된다는 점은 데이터 큐레이션 연구가 보여 준 그대로다. 토큰맥싱의 시대가 저무는 지금, 승자는 AI를 덜 쓰는 쪽이 아니라 가장 영리하게 쓰는 쪽이 될 것이다.

Trend Insight — AI 비용 최적화는 더 이상 인프라팀만의 숙제가 아니다. 어떤 작업에 어떤 모델을 쓸지 결정하는 ‘모델 포트폴리오 전략’이 사실상 새로운 경쟁력으로 떠오르고 있다.

출처

AI Biz Insider · AI 트렌드 · aibizinsider.com

AI 많이 쓸수록 좋은 줄 알았다

토큰맥싱은 어떻게 식었나

‘많이 쓰면 장땡’이던 시절

청구서가 도착했다

작고 싼 모델의 반격

효율은 소형 모델 편이다

라우팅의 부상

그런데 정작 AI 랩들은 더 쓴다

한국 기업·개발자를 위한 체크리스트

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물