
- 구글 DeepMind가 Gemma 4를 Apache 2.0 라이선스로 전면 공개 — 상업적 사용 완전 자유
- 31B Dense 모델이 오픈 모델 글로벌 3위, 자기보다 20배 큰 모델도 이김
- E2B 모델은 1.5GB 메모리로 스마트폰에서 구동 — 완전 오프라인 에이전트 가능
- 네이티브 함수 호출, 구조화 JSON 출력, 140개 언어 지원까지 탑재
AI 오픈소스 진영에 지각변동이 일어났다. 구글 DeepMind가 4월 2일 공개한 Gemma 4는 ‘파라미터당 지능’이라는 새로운 게임의 룰을 제시한다. 31B 파라미터로 세계 3위, 2B 파라미터로 스마트폰 구동. 그런데 이게 Apache 2.0이라 누구든 가져다 쓸 수 있다. 대형 모델에 API 비용을 쏟아붓던 개발자라면, 지금 이 글을 읽어야 할 이유가 충분하다.
4가지 모델, 4가지 전략
라인업 한눈에 보기
Gemma 4는 네 가지 변형으로 출시됐다. E2B(Effective 2B)와 E4B(Effective 4B)는 모바일과 IoT 기기를 겨냥한 엣지 모델이다. 26B MoE(Mixture of Experts)는 추론 시 3.8B 파라미터만 활성화해 레이턴시를 극한으로 줄인다. 31B Dense는 품질 최우선 — 파인튜닝에 최적화된 플래그십이다.
핵심은 ‘선택할 수 있다’는 점이다. 클라우드 GPU가 없어도, 스마트폰 하나면 AI 에이전트를 돌릴 수 있게 됐다. 구글 Pixel, 퀄컴, MediaTek과 협력해 E2B는 1.5GB 미만의 메모리로 완전 오프라인 동작을 실현했다.
Trend Insight — 모델 크기 경쟁이 ‘효율성 경쟁’으로 전환되고 있다. Gemma 4의 MoE 아키텍처는 26B 전체 파라미터 중 3.8B만 활성화하면서도 Arena AI 리더보드 6위를 기록했다. 이는 추론 비용 절감이 곧 경쟁력이 되는 시대가 왔음을 의미한다.
에이전트 AI, 이제 로컬에서 돌린다
네이티브 함수 호출과 구조화 출력
Gemma 4의 가장 파괴적인 변화는 ‘에이전트 기능의 민주화’다. 네이티브 함수 호출(function calling)과 구조화된 JSON 출력을 별도 파인튜닝 없이 바로 지원한다. 시스템 인스트럭션도 네이티브로 처리한다. 이 말은 곧, API 서버 없이도 로컬에서 자율적으로 도구를 사용하는 에이전트를 만들 수 있다는 뜻이다.
실제 벤치마크가 말해주는 것
Raspberry Pi 5에서 CPU만으로 초당 133토큰 프리필, 7.6토큰 디코딩을 달성했다. 퀄컴 Dragonwing IQ8 NPU에서는 초당 3,700토큰 프리필. 2개의 스킬을 걸쳐 4,000 입력 토큰을 3초 안에 처리한다. 이 수치는 실시간 음성 비서나 현장 업무 에이전트를 로컬에서 구현할 수 있음을 보여준다.
Constrained Decoding이라 불리는 기술로 구조화된 출력을 보장한다. 에이전트가 항상 예측 가능한 JSON을 반환하기 때문에, 프로덕션 환경에서 도구 호출 실패율이 극적으로 줄어든다.
Trend Insight — 에이전트 AI의 병목은 더 이상 모델 성능이 아니라 ‘배포 환경’이었다. Gemma 4는 이 병목을 제거한다. 서버리스 비용 걱정 없이 엣지에서 에이전트를 돌릴 수 있다면, 제조업 현장, 의료 기기, 소매 POS 등 인터넷이 불안정한 환경에서의 AI 적용이 폭발적으로 늘어날 것이다.
멀티모달 + 256K 컨텍스트의 의미
텍스트를 넘어선 이해력
전체 모델이 이미지와 비디오를 가변 해상도로 네이티브 처리한다. E2B와 E4B는 여기에 오디오 입력까지 지원한다. 즉, 스마트폰에서 사진을 찍고, 음성으로 질문하면, 텍스트로 답변하는 완전한 멀티모달 루프가 가능해졌다 — 인터넷 연결 없이.
256K 컨텍스트 윈도우
26B와 31B 모델은 최대 256K 토큰의 컨텍스트 윈도우를 제공한다. 엣지 모델도 128K를 지원한다. 긴 문서 분석, 코드베이스 전체 이해, 장시간 대화 유지 등이 로컬에서 가능해진다는 의미다. 140개 이상의 언어를 네이티브로 학습했기 때문에, 글로벌 서비스를 만드는 개발자에게도 매력적이다.
Trend Insight — 오픈소스 모델의 멀티모달 지원은 Meta의 Llama 시리즈가 선도했지만, Gemma 4는 ‘엣지에서의 멀티모달’이라는 새로운 카테고리를 개척했다. 클라우드 API 의존도를 줄이면서도 풍부한 입력을 처리할 수 있다는 점에서, 프라이버시에 민감한 헬스케어, 금융 등 규제 산업에서의 수요가 클 것으로 보인다.
개발자를 위한 실전 가이드
바로 시작할 수 있는 생태계
Gemma 4는 출시 첫날부터 Hugging Face Transformers, vLLM, llama.cpp, Ollama, NVIDIA NIM, Docker 등 주요 프레임워크를 모두 지원한다. Hugging Face, Kaggle, Ollama에서 바로 다운로드할 수 있다. 양자화 버전은 소비자용 GPU에서도 돌아가며, bfloat16 원본은 단일 80GB H100에 올릴 수 있다.
어떤 모델을 선택할까
모바일 앱에 AI를 넣고 싶다면 E2B. 빠른 추론이 필요한 서비스라면 26B MoE. 품질이 최우선이거나 커스텀 파인튜닝을 계획한다면 31B Dense. 각 모델이 명확한 유스케이스를 갖고 있어서, ‘일단 가장 큰 모델’이라는 접근보다 전략적 선택이 가능하다.
Trend Insight — Apache 2.0 라이선스의 의미를 과소평가하면 안 된다. Meta Llama의 커뮤니티 라이선스와 달리, Gemma 4는 사용자 수 제한이나 별도 계약 없이 상업적 사용이 완전히 자유롭다. 스타트업이든 대기업이든, 라이선스 검토 없이 바로 프로덕션에 투입할 수 있다는 것은 채택 속도에서 결정적 차이를 만든다.
관련 글
- 코드 에디터 하나에 50조… Cursor의 미친 성장
- Jira 데이터 몰래 쓴다고? Atlassian AI 학습 정책 변경
- AI 도입해도 돈 못 번다고? PwC가 밝힌 7.2배 격차
- 시니어 개발자, 결국 이렇게 된다…
출처
- Google Blog — Gemma 4: Byte for byte, the most capable open models
- Google DeepMind — Gemma 4 공식 페이지
- Google Developers Blog — Bring state-of-the-art agentic skills to the edge with Gemma 4
- Hugging Face — Welcome Gemma 4: Frontier multimodal intelligence on device
AI Biz Insider · AI 트렌드 · aibizinsider.com
댓글 남기기