
- 구글이 6월 10일 ‘텍스트 디퓨전’ 방식의 오픈 모델 DiffusionGemma(26B, 활성 4B MoE)를 Apache 2.0 라이선스로 공개
- 토큰을 한 개씩 쓰는 대신 256토큰 블록을 노이즈 제거 방식으로 한 번에 생성 — 기존 LLM 대비 최대 4배 빠른 속도
- H100에서 초당 1,000토큰 이상, RTX 5090에서도 700토큰 이상. 양자화 시 18GB VRAM이면 로컬 실행 가능
- 품질은 기존 Gemma 4보다 낮고 고동시성 클라우드에선 이점 감소 — 구글도 ‘로컬·저동시성 전용’이라고 선을 그음
ChatGPT가 답변을 한 글자씩 타이핑하듯 출력하는 모습, 이제 익숙하실 겁니다. 그런데 구글이 이번 주에 공개한 새 모델은 글을 그렇게 쓰지 않습니다. 무작위 단어로 가득 찬 ‘초안’을 먼저 깔아놓고, 거기서 노이즈를 지워가며 문장을 완성합니다. 이미지 생성 AI가 흐릿한 노이즈에서 그림을 끌어내는 것과 같은 원리를 텍스트에 적용한 것인데, 결과는 최대 4배 빠른 생성 속도입니다. 6월 10일 공개된 DiffusionGemma의 핵심을 정리했습니다.
한 글자씩 쓰는 AI는 잊어라 — ‘지우면서’ 글을 만드는 모델
기존 LLM은 자기회귀(autoregressive) 방식으로 동작합니다. 앞 토큰을 보고 다음 토큰을 예측하고, 그 토큰을 다시 입력에 넣어 그다음 토큰을 예측하는 식이죠. 아무리 GPU가 빨라도 이 구조에서는 토큰을 순서대로 하나씩 만들 수밖에 없습니다.
이미지 생성에서 빌려온 아이디어
DiffusionGemma는 이 순서를 깨버립니다. 프롬프트를 받으면 먼저 무작위 토큰으로 채워진 256토큰짜리 ‘캔버스’를 만들고, 모델이 확신하는 토큰부터 자리를 확정해 가며 여러 번의 디노이징(denoising) 단계를 거쳐 전체 블록을 동시에 완성합니다. 구글 공식 문서에 따르면 권장 설정 기준 최대 48단계 이내, 실제로는 과제 난이도에 따라 12~16단계면 한 블록이 완성됩니다. 코드처럼 구조화된 출력일수록 더 적은 단계로 끝나, 과제에 따라 속도가 동적으로 달라지는 것도 특징입니다.
양방향으로 문맥을 보는 어텐션
구조도 흥미롭습니다. 프롬프트는 기존처럼 자기회귀 인코더로 처리해 캐시하고, 생성 캔버스 위에서는 양방향(bi-directional) 어텐션을 적용합니다. 앞 단어만 보는 게 아니라 뒤에 올 단어까지 함께 참조하면서 문장을 다듬는다는 뜻입니다. SiliconANGLE은 이를 두고 “구글이 Gemma 4의 어텐션 모듈 자체를 교체했다”고 설명했습니다.
Trend Insight — 디퓨전 기반 텍스트 생성은 수년간 연구실 단계에 머물러 있던 주제입니다. 구글이 26B급 모델을 오픈 웨이트로 풀었다는 건 ‘연구 데모’가 아니라 ‘쓸 만한 물건’이 됐다는 신호로 읽어야 합니다. 작년 Gemini Diffusion 실험 버전의 후속이 오픈소스로 나온 셈입니다.
숫자로 보는 DiffusionGemma
공개된 스펙을 보면 포지셔닝이 명확합니다. 총 26B 파라미터 중 약 4B만 활성화되는 MoE(Mixture-of-Experts) 구조에, NVFP4라는 경량 데이터 포맷으로 메모리를 아꼈습니다. 그 결과가 이 수치들입니다.
속도는 H100 한 장에서 초당 1,000토큰 이상, 데스크톱용 RTX 5090에서도 초당 700토큰 이상입니다. 양자화하면 18GB VRAM 안에 들어가기 때문에 고급 소비자용 GPU 한 장으로 로컬 실행이 가능합니다. 컨텍스트는 256K 토큰, 지원 언어는 140개 이상이며, 텍스트·이미지·비디오 입력을 받는 멀티모달 모델입니다(오디오 입력은 미지원). 단계별 추론을 위한 thinking 모드도 내장돼 있습니다.
모델 가중치는 Hugging Face, Kaggle, Vertex AI 모델 가든에서 받을 수 있고, 라이선스는 상업적 이용이 자유로운 Apache 2.0입니다. 파인튜닝용 코드(‘hackable diffusion’)도 GitHub에 함께 공개됐습니다.
Trend Insight — ‘초당 700토큰을 내 PC에서’라는 수치는 에이전트 워크플로의 체감 속도를 바꿉니다. 에이전트는 한 작업에 수만 토큰을 생성하는데, 생성 속도가 4배면 대기 시간이 4분의 1이 됩니다. 로컬 에이전트·코딩 보조 도구를 만드는 팀이라면 직접 벤치마크해 볼 가치가 충분합니다.
왜 하필 ‘로컬’인가 — 그리고 분명한 한계
구글이 강조하는 지점이 흥미롭습니다. 기존 LLM은 수천 개의 요청을 묶어 배치 처리할 수 있어 대규모 클라우드에서는 효율적이지만, 사용자 한 명이 로컬에서 돌리면 하드웨어가 놀게 됩니다. DiffusionGemma는 256토큰을 동시에 생성하는 방식으로 단일 사용자 환경에서 GPU를 최대한 굴리도록 설계됐습니다. 반대로 동시 요청이 많은 고QPS 클라우드 환경에서는 병렬 디코딩의 이점이 줄어든다고 구글 스스로 명시했습니다.
품질은 아직 Gemma 4가 위
또 하나 솔직한 대목은 품질입니다. 구글은 DiffusionGemma의 출력 품질이 동급 자기회귀 모델인 Gemma 4보다 낮으며, 최고 품질이 필요한 프로덕션 작업에는 여전히 Gemma 4를 권장한다고 밝혔습니다. 즉 이 모델은 ‘속도와 로컬 효율이 품질보다 중요한 작업’을 위한 선택지입니다. 실시간 자동완성, 대량 초안 생성, 온디바이스 에이전트의 중간 추론 단계 같은 용도가 먼저 떠오릅니다.
Trend Insight — 자기회귀 일변도였던 LLM 시장에 ‘아키텍처 다양화’ 흐름이 시작됐습니다. 속도가 필요한 곳엔 디퓨전, 품질이 필요한 곳엔 자기회귀 — 앞으로는 단일 모델이 아니라 작업별로 생성 방식을 골라 쓰는 시대가 올 수 있습니다. 기업 입장에서는 ‘어떤 모델’보다 ‘어떤 생성 방식’이 내 워크로드에 맞는지 따져보는 안목이 필요해집니다.
관련 글
출처
- Google AI for Developers — DiffusionGemma model overview (2026-06-10)
- SiliconANGLE — Google open-sources speedy DiffusionGemma text diffusion model
- Google Blog — DiffusionGemma: faster text generation
- Hugging Face — google/diffusiongemma-26B-A4B-it
AI Biz Insider · AI 트렌드 · aibizinsider.com
댓글 남기기