Google 또 몰래 깔았다...

AI 투명성 위기 - Chrome 4GB Gemini Nano와 Gemma 4 MTP 은폐 사건

DIGEST

개인 AI 생산성은 자동으로 조직 학습이 되지 않는다 – Mollick 프레임으로 본 ‘messy middle’
Google이 Gemma 4 MTP를 공개 가중치에서 의도적 제거, 커뮤니티 리버스 엔지니어링으로 들통난 후 외부 보조 모델로 우회 지원
Chrome이 동의 프롬프트 없이 4GB Gemini Nano를 14분 28초 만에 자동 설치, GDPR·ePrivacy 5(3) 위반 평가

2026년 5월 6일 GeekNews를 관통한 키워드는 하나다. “AI는 누구의 것인가.” 직원 하나하나가 Copilot으로 빨라져도 회사는 배우지 못하고, 오픈 모델은 핵심 기능이 잘려서 배포되며, 사용자 디스크 4GB는 동의 없이 채워진다. 세 사건은 따로 일어났지만 같은 질문을 던진다. AI 시대의 신뢰는 어떻게 작동하는가.

모두가 AI를 써도 회사는 못 배우는 이유

Mollick의 ‘messy middle’ – 토큰이 아닌 학습을 측정하라

Robert Glaser가 5월 6일 공개한 분석은 AI 도입의 ‘messy middle(복잡한 중간 단계)’을 정면으로 짚는다. Copilot, ChatGPT Enterprise, Claude, Gemini, Cursor가 회사 안에 들어왔지만, 같은 회사 내에서도 활용 깊이는 극단적으로 갈린다. 어떤 팀은 자동완성으로만 쓰고, 어떤 팀은 Claude Code를 테스트·리뷰·지속 조정과 함께 촘촘한 루프로 돌린다. 시니어 엔지니어가 근본 원인 분석을 에이전트에 맡겨 1시간 만에 답을 얻는 동안, 옆 팀은 여전히 워크숍 자료만 쌓고 있다.

Ethan Mollick의 Leadership·Lab·Crowd 프레임에서 핵심은 발견이 개인에서 팀으로, 팀에서 조직 역량으로 어떻게 이동하는가다. Glaser는 세 가지 역량을 제시한다. Agent Operations(어떤 에이전트가 어떤 시스템을 건드리는지 통제), Loop Intelligence(어떤 루프가 실제 학습을 만드는지 파악), Agent Capabilities(유용한 역량을 실제 일이 일어나는 곳으로 흘려보냄). 하나만 있으면 통제 관료제가 되거나, 발견만 하고 업무에 못 넣거나, 도구 난립이 된다.

Tech Insight — 흥미로운 한 줄은 “토큰 대비 산출물(output per token)은 낡은 측정 반사가 새 옷을 입은 것”이라는 지적. 진짜 측정해야 할 것은 토큰 대비 학습(learning per token)이다. 풀 리퀘스트 수가 아니라 어떤 루프가 더 빨리 닫혔는지, 어떤 의사결정이 개선됐는지, 어떤 팀이 재사용 가능한 패턴을 배웠는지가 진짜 KPI다. CEO와 CTO가 ROI를 묻기 시작하는 순간, ‘플래티넘 토큰 명패’를 걸고 끝낼 수 없게 된다.

Gemma 4 MTP 은폐 사건 – 커뮤니티가 리버스 엔지니어링으로 들통내다

코드 생성 8tps → 25tps, 3배 가속의 비밀

오픈소스 개발자들이 Google의 모바일/엣지용 포맷 .litertlm 파일을 분석하다가 충격적인 사실을 발견했다. HuggingFace 공개 가중치에는 없는 MTP(Multi-Token Prediction) 아키텍처가 엣지 컴파일 파일에만 들어 있었던 것. Google은 시인했다. “MTP 예측 헤드는 HuggingFace Transformers API와의 호환성을 위해 공개 모델에서 의도적으로 제외했다.”

커뮤니티는 .litertlm에서 .tflite 파일을 추출하고 1024-wide 어텐션 INT8 양자화 경로를 풀어 GQA 구조, 슬라이딩 로컬 윈도우, 부분 RoPE를 재구성했다. end-to-end TFLite 패리티 20/20 top-1 매치 달성. 라이선스가 Apache 2.0이라 법적 문제는 없다. Strix Halo 실측 결과는 강렬하다. 코드 생성 8tps → 25tps(약 3배), 일반 글쓰기 7~8tps → 11~14tps. 기존 LLaMA/Qwen3 계열 투기적 디코딩이 보통 1.5~1.7배인 것과 비교하면 코딩 3배는 이례적이다. 반복 보일러플레이트가 많아 드래프트 토큰 수락률이 높기 때문.

5월 5~6일 Google은 약 500M 파라미터 경량 드래프터인 gemma4_assistant를 HuggingFace에 별도 릴리스하며 공식 블로그로 우회 지원에 나섰다. 본래 모델 안에 있어야 할 기능을 외부 모델로 떼어내 붙인 것. 커뮤니티는 두 방향으로 비판했다. 첫째, 학습시켜놓고 공개 배포에서 고의 제거하면서 아무 언급도 없었다는 미문서화. 둘째, “로컬 31B가 너무 빨라지면 자사 Flash Lite API의 경쟁력을 위협하니 의도적으로 너프했다”는 상업적 의도 의혹. 유출 후 삭제된 122B 모델도 같은 맥락으로 거론됐다.

Tech Insight — “오픈 가중치”라는 단어가 흔들리는 순간이다. Apache 2.0 라이선스 아래 배포된 모델이라도 학습된 능력 전부가 공개 가중치에 들어 있는 것은 아니다. 엣지 디바이스용 컴파일 파일과 HuggingFace 공개 파일이 다른 아키텍처를 갖는다는 사실은, 향후 모든 오픈 모델에 대해 “어떤 채널의 어떤 빌드인가”를 따져야 한다는 뜻이다. 클라우드 API 사업자가 자기 모델의 로컬 구동 속도를 의도적으로 늦출 인센티브가 구조적으로 존재한다는 점도 기억해야 한다.

Chrome이 동의 없이 4GB Gemini Nano를 깔았다

14분 28초 자동 설치, 10억 대 배포 시 60,000톤 CO2e

thatprivacyguy.com이 5월 6일 공개한 검증은 데이터가 단단하다. Apple Silicon 신규 프로필에서 Chrome 사용자 데이터 디렉터리를 만들고 자동 감사 드라이버로만 운용하는 동안, 2026년 4월 24일 16:38:54 CEST에 OptGuideOnDeviceModel 디렉터리가 생성됐고 16:53:22 CEST에 4GB weights.bin이 최종 배치됐다. 총 14분 28초, 사람의 키보드·마우스 입력은 0회. macOS 커널의 .fseventsd가 Chrome과 독립적으로 기록한 로그가 증거다.

설치 과정에 동의 프롬프트는 없다. Chrome 설정에 “4GB AI 모델 다운로드” 같은 체크박스도 없다. Local State JSON에는 performance_class: 6, vram_mb: "36864"가 기록돼 있어, Chrome이 사용자에게 노출하기 전에 GPU와 통합 메모리를 읽어 모델 푸시 적격성을 판단했음이 드러났다. OnDeviceModelBackgroundDownload와 ShowOnDeviceAiSettings 두 플래그가 같은 롤아웃에 묶여 있어, 설정 UI에서 거부할 기회보다 설치가 먼저 시작되는 구조다. Windows에서는 파일을 삭제해도 Chrome이 다시 다운로드한다.

법적 평가는 무겁다. ePrivacy Directive Article 5(3)는 사용자 단말에 정보를 저장할 때 사전의 자유롭고 구체적인 동의를 요구하는데, Chrome은 이 모델 없이도 동작하므로 “엄격히 필요” 예외에 해당하지 않는다. GDPR Article 5(1)·25의 투명성·기본값 최소화 원칙도 위배 평가다. Chrome 147 omnibox의 “AI Mode” pill은 사실 클라우드 기반 Search Generative Experience라서, 4GB 로컬 모델은 “Help-Me-Write”·smart paste·페이지 요약 등 별도 기능에만 쓰인다. 사용자는 디스크와 대역폭만 부담한다.

기후 비용은 측정 가능하다. 0.06kWh/GB(Pärssinen 2018 중간값)와 0.25kg CO2e/kWh(EU-27 2024)로 계산하면, 기기당 1회 푸시는 0.24kWh·0.06kg CO2e. 10억 대 배포 시 4EB 전송, 240GWh, 60,000톤 CO2e. 60,000톤은 EU 평균 승용차 13,000대의 연간 배출량이다. SSD 내재 탄소(0.16kg CO2e/GB NAND)까지 더하면 10억대×4GB는 추가로 약 640,000톤 CO2e가 사용자 동의 없이 배정된 셈.

Tech Insight — 세 사건의 공통점은 명확하다. “AI 바이트라는 이유로 다른 바이트에 적용되는 법에서 예외가 되지 않는다.” 회사가 직원 AI 도입에 거버넌스를 만들지 못하면 학습은 사라지고, 벤더가 모델을 어디서 어떻게 배포하는지 투명성이 깨지면 신뢰는 무너진다. CEO와 CTO에게 던져야 할 질문은 단순하다. “우리 회사가 쓰는 AI는 어떤 채널의 어떤 빌드이며, 사용자/직원의 어떤 동의 위에서 작동하는가?” 이 질문에 답하지 못하면 ROI 논의는 시작도 못 한다.

출처

AI Biz Insider · Tech Digest · aibizinsider.com

Google 또 몰래 깔았다…

모두가 AI를 써도 회사는 못 배우는 이유

Mollick의 ‘messy middle’ – 토큰이 아닌 학습을 측정하라

Gemma 4 MTP 은폐 사건 – 커뮤니티가 리버스 엔지니어링으로 들통내다

코드 생성 8tps → 25tps, 3배 가속의 비밀

Chrome이 동의 없이 4GB Gemini Nano를 깔았다

14분 28초 자동 설치, 10억 대 배포 시 60,000톤 CO2e

관련 글

출처

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

Siri에 클로드 깐다고?

콜센터 8주 만에 갈아엎었다

OpenAI Slipped GPT-5 Brains Into Your Microphone

딥시크보다 빠른 게 있다

Google 또 몰래 깔았다…

모두가 AI를 써도 회사는 못 배우는 이유

Mollick의 ‘messy middle’ – 토큰이 아닌 학습을 측정하라

Gemma 4 MTP 은폐 사건 – 커뮤니티가 리버스 엔지니어링으로 들통내다

코드 생성 8tps → 25tps, 3배 가속의 비밀

Chrome이 동의 없이 4GB Gemini Nano를 깔았다

14분 28초 자동 설치, 10억 대 배포 시 60,000톤 CO2e

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

Siri에 클로드 깐다고?

콜센터 8주 만에 갈아엎었다

OpenAI Slipped GPT-5 Brains Into Your Microphone

딥시크보다 빠른 게 있다

AI Biz Insider에서 더 알아보기

AI Biz Insider에서 더 알아보기