13GB로 GPT-4 이겼다는 모델...써봤더니 소름

DIGEST

SuperGemma4가 Gemma 4 26B를 4비트 양자화로 13GB에 압축, QuickBench 95.8(+4.4)과 46.2 tok/s를 달성하며 Apple Silicon 로컬 AI의 새 기준을 세웠다.
openai-oauth는 ChatGPT 계정의 OAuth 토큰으로 OpenAI API를 무료 사용하는 오픈소스 프록시로, npx 한 줄이면 로컬 서버가 뜬다.
UC Santa Barbara·MIT 공동 연구에서 3만 4천 개 AI 에이전트 스킬을 테스트한 결과, 현실 환경 성능이 벤치마크 대비 최대 27% 하락했다.
로컬 AI 모델 최적화, API 접근성 민주화, 그리고 에이전트 스킬의 현실적 한계까지 — 오늘의 세 기사는 AI 인프라의 기대와 현실 사이 간극을 동시에 보여준다.

오늘 GeekNews에는 로컬 AI 추론의 한계를 밀어붙이는 커뮤니티 모델, API 비용 장벽을 우회하는 실험적 도구, 그리고 AI 에이전트의 현실 성능을 냉정하게 측정한 학술 연구가 나란히 올라왔다. 세 기사 모두 ‘AI 기술이 실제로 어디까지 왔는가’라는 하나의 질문으로 수렴한다. 팩트를 확인하고 실무 관점에서 정리했다.

SuperGemma4 — Gemma 4 26B를 13GB로 압축, QuickBench 95.8 달성

핵심 요약

Hugging Face 사용자 Jiunsong이 공개한 SuperGemma4-26B-Uncensored-MLX-4bit-v2는 Google의 Gemma 4 26B IT 모델을 Apple Silicon MLX 프레임워크에 최적화한 4비트 양자화 버전이다. 파일 크기 약 13GB(디스크 14.2GB)로 MacBook에서 구동 가능하며, QuickBench 전체 점수 95.8(원본 91.4 대비 +4.4), 생성 속도 46.2 tok/s(+8.7%), 코드 생성 98.6(+6.3), 한국어 95.0(+4.3)을 기록했다. BF16·U32 텐서 형식의 Safetensors 포맷을 사용하고, mlx_lm.server 명령어 한 줄로 OpenAI 호환 서버를 띄울 수 있다. 비검열(uncensored) 모델로 코드·도구 사용·한국어 프롬프트에서 안정적 출력을 유지한다. 다만 원본 Gemma 4의 Apache 2.0이 아닌 별도 Gemma 라이선스를 따르는 점은 상업적 활용 시 확인이 필요하다.

AI Biz Insider 분석 ― 13GB 모델이 QuickBench 95.8을 찍었다는 것은 MacBook Pro M4 한 대로 GPT-4급 코드·한국어 추론이 가능해졌다는 뜻이다. 중소 개발팀에게 클라우드 API 의존도를 줄일 실질적 대안이 될 수 있으나, Gemma 라이선스의 상업적 사용 조건과 비검열 모델 특유의 안전성 이슈를 반드시 사전 검토해야 한다. 로컬 에이전트 워크로드가 늘어나는 추세와 맞물려 Apple Silicon 생태계의 AI 경쟁력이 가시적으로 확대되고 있다.

openai-oauth — ChatGPT 계정으로 OpenAI API 무료 사용

핵심 요약

GitHub 사용자 EvanZhouDev가 공개한 openai-oauth는 ChatGPT 계정의 OAuth 토큰을 활용해 별도 API 크레딧 구매 없이 OpenAI API를 사용할 수 있게 해주는 오픈소스 프록시 도구다. npx openai-oauth 명령 한 줄로 로컬 프록시 서버(127.0.0.1:10531/v1)가 실행되며, /v1/responses, /v1/chat/completions, /v1/models 엔드포인트를 지원한다. 스트리밍 응답, 도구 호출(tool calling), 추론 트레이스가 모두 동작하고, Vercel AI SDK 프로바이더도 포함되어 있다. 내부적으로 OpenAI Codex CLI가 사용하는 chatgpt.com/backend-api/codex/responses 엔드포인트를 경유하며, 인증 토큰은 ~/.codex/auth.json에 자동 저장·갱신된다. AGPL-3.0 라이선스이며, 공식 프로젝트가 아닌 커뮤니티 도구로 개인 로컬 실험 용도에 한정할 것을 권고한다.

AI Biz Insider 분석 ― API 비용이 진입 장벽인 개인 개발자에게 매력적인 도구이나, 본질적으로 OpenAI 이용약관의 회색 지대에 위치한다. 계정 정지 리스크와 인증 토큰의 보안 취급 문제가 상존하므로 프로덕션 환경이나 팀 단위 사용은 권장하기 어렵다. 다만 이런 도구가 등장한다는 것 자체가 AI API 가격 정책에 대한 개발자 커뮤니티의 불만을 반영하며, OpenAI가 Codex 엔드포인트를 아직 차단하지 않았다는 점도 주목할 만하다.

AI 에이전트 스킬, 벤치마크의 절반도 현실에서 안 나온다

핵심 요약

UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab 공동 연구팀이 arxiv에 발표한 논문 ‘How Well Do Agentic Skills Work in the Wild’는 34,198개의 오픈소스 AI 에이전트 스킬을 현실적 조건에서 테스트한 결과를 담고 있다. Claude Opus 4.6 기준으로, 스킬을 직접 제공했을 때 통과율 55.4%였으나 실제 환경(대규모 검색 + 선택 과정 포함)에서는 40.1%로 하락했다. 스킬 없이 테스트한 기준선이 35.4%로, 현실 조건에서의 스킬 효과는 고작 4.7%p에 불과했다. 핵심 병목은 스킬 선택 실패(적절한 스킬 호출율 49%)와 검색 정확도 한계(recall@5 최대 65.5%)다. 약한 모델(Kimi, Qwen)은 스킬 사용 시 오히려 기준선 이하로 성능이 떨어지는 역효과까지 보였다. 연구팀은 단순히 마크다운 파일을 컨텍스트에 직접 삽입하는 방식이 복잡한 스킬 검색 시스템보다 안정적이었다고 보고했다.

AI Biz Insider 분석 ― AI 에이전트 생태계에 ‘냉수 한 잔’을 끼얹는 연구다. 벤치마크에서 화려한 수치를 보여주는 에이전트 프레임워크들이 실전에서는 스킬 선택 단계에서부터 무너진다는 점은, 현재 에이전트 투자 열풍에 대한 경고 신호이기도 하다. 실무적으로는 스킬 개수를 늘리기보다 핵심 스킬의 품질과 검색 정확도를 높이는 전략이 유효하며, ‘단순한 것이 더 잘 작동한다’는 결론은 엔지니어링 의사결정에 직접 참고할 만하다.

Executive Summary

기사	키워드	실무 액션	중요도
SuperGemma4	MLX, 4비트 양자화, Apple Silicon	M4 Mac 보유 팀은 로컬 에이전트 PoC 검토	HIGH
openai-oauth	OAuth, 무료 API, Codex CLI	개인 실험용으로만 제한, 프로덕션 사용 금지	MEDIUM
AI Agent Benchmark	스킬 검색, 현실 성능, Terminal-Bench	에이전트 도입 시 벤치마크 수치의 50~70%만 기대	HIGH

출처

AI Biz Insider · Tech Digest · aibizinsider.com

13GB로 GPT-4 이겼다는 모델…써봤더니 소름 — Digest 04/16

SuperGemma4 — Gemma 4 26B를 13GB로 압축, QuickBench 95.8 달성

핵심 요약

openai-oauth — ChatGPT 계정으로 OpenAI API 무료 사용

핵심 요약

AI 에이전트 스킬, 벤치마크의 절반도 현실에서 안 나온다

핵심 요약

Executive Summary

관련 글

출처

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

The Pentagon Banned This AI — The NSA Uses It Anyway

Jira 데이터 몰래 쓴다고?

This Chip Startup Just Filed to Take On NVIDIA

코드 에디터 하나에 50조…

13GB로 GPT-4 이겼다는 모델…써봤더니 소름 — Digest 04/16

SuperGemma4 — Gemma 4 26B를 13GB로 압축, QuickBench 95.8 달성

핵심 요약

openai-oauth — ChatGPT 계정으로 OpenAI API 무료 사용

핵심 요약

AI 에이전트 스킬, 벤치마크의 절반도 현실에서 안 나온다

핵심 요약

Executive Summary

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

The Pentagon Banned This AI — The NSA Uses It Anyway

Jira 데이터 몰래 쓴다고?

This Chip Startup Just Filed to Take On NVIDIA

코드 에디터 하나에 50조…

AI Biz Insider에서 더 알아보기

AI Biz Insider에서 더 알아보기