폰에서 AI 돌렸더니...

1.58비트 삼진 양자화 AI 모델이 스마트폰에서 구동되는 미래형 일러스트

TL;DR

PrismML의 Ternary Bonsai, 가중치를 {-1, 0, +1} 단 3개로 압축해 모델 크기를 9배 줄이는 데 성공
8B 파라미터 모델이 1.75GB에 불과 – M4 Pro에서 초당 82토큰, 아이폰 17 Pro Max에서 27토큰 달성
에너지 효율 3~4배 향상으로 온디바이스 AI 시대가 현실로 다가옴
벤치마크에서 Qwen3 8B에 근접하는 성능을 유지하면서 용량은 1/9 수준

솔직히 처음 들었을 때 믿기 어려웠다. 가중치를 고작 1.58비트로 줄여놓고 “성능은 거의 그대로”라니. 그런데 PrismML이 공개한 Ternary Bonsai 벤치마크를 직접 확인해보니, 이건 단순한 압축 기술이 아니라 AI 배포 패러다임 자체를 바꿀 수 있는 돌파구였다. 서버 없이, 클라우드 없이, 내 주머니 속 폰 하나로 GPT급 AI를 돌릴 수 있다면?

1.58비트의 마법 – 삼진 양자화란 무엇인가

가중치 3개로 AI를 만든다

일반적인 AI 모델은 가중치를 16비트(FP16) 부동소수점으로 저장한다. Ternary Bonsai는 이를 극단적으로 줄여 {-1, 0, +1} 단 세 가지 값만 사용한다. 수학적으로 log2(3) = 1.58비트이므로 “1.58비트 모델”이라 부른다. 128개 가중치마다 하나의 FP16 스케일 팩터를 공유하는 그룹 단위 방식으로, 극단적 압축과 정확도 사이의 균형을 잡았다.

핵심은 이 양자화가 모델의 일부가 아니라 전체에 적용된다는 점이다. 임베딩, 어텐션 레이어, MLP, LM 헤드까지 모든 구성 요소가 동일한 1.58비트 표현을 사용한다. 기존의 혼합 정밀도 접근법과 근본적으로 다른 설계 철학이다.

Trend Insight — 1비트 LLM 연구(BitNet)가 학계에서 화제를 모은 지 2년, 이제 실용 수준의 삼진 모델이 등장했다. 곱셈 연산이 덧셈/뺄셈으로 대체되면서 전용 하드웨어 없이도 극적인 효율 향상이 가능해졌다.

벤치마크 – 9배 작은데 성능은?

8B 모델이 1.75GB

Ternary Bonsai는 8B, 4B, 1.7B 세 가지 크기로 공개됐다. 가장 큰 8B 모델의 메모리 풋프린트는 약 1.75GB로, 동급 16비트 모델(약 16GB) 대비 9배 이상 작다. MMLU Redux, MuSR, GSM8K 등 표준 벤치마크에서 평균 75.5점을 기록하며 이전 1비트 버전(70.5점) 대비 5점 향상됐다.

기가바이트당 지능 밀도

PrismML이 강조하는 지표는 “기가바이트당 지능 밀도(intelligence density per GB)”다. 같은 메모리 예산 안에서 얼마나 똑똑한 모델을 돌릴 수 있느냐가 핵심이다. Ternary Bonsai 8B는 이 지표에서 동급 최강을 기록했으며, Qwen3 8B에 근접하는 절대 성능을 메모리 1/9로 달성했다.

Trend Insight — 클라우드 API 호출 비용이 토큰당 과금되는 시대에, 온디바이스 모델의 경제성은 단순한 기술 지표를 넘어 비즈니스 모델 자체를 뒤흔든다. 월 수십만 원의 API 비용이 사실상 0원이 되는 셈이다.

실전 성능 – 폰에서 AI가 달린다

M4 Pro: 초당 82토큰

Apple M4 Pro 칩에서 Ternary Bonsai 8B는 초당 82토큰을 생성한다. 토큰당 에너지 소비는 0.105mWh로, 16비트 모델 대비 3~4배 높은 에너지 효율을 보인다. 맥북 하나로 서버급 추론 성능을 얻을 수 있다는 뜻이다.

iPhone 17 Pro Max: 초당 27토큰

더 놀라운 건 모바일 성능이다. iPhone 17 Pro Max에서 초당 27토큰을 달성했는데, 이는 실시간 대화가 충분히 가능한 속도다. 사용자가 텍스트를 읽는 속도보다 AI가 생성하는 속도가 더 빠르다. 와이파이 끊긴 비행기 안에서도, 오프라인 상태에서도, 8B급 AI 어시스턴트를 쓸 수 있게 된 것이다.

Trend Insight — Apple Intelligence, Google Gemini Nano 등 빅테크의 온디바이스 AI 전략이 모두 4비트 양자화 수준에 머물러 있다. 1.58비트까지 내려간 Ternary Bonsai는 이 경쟁의 기술적 하한선을 새로 정의한 셈이다.

이것이 의미하는 것

프라이버시와 비용의 동시 해결

온디바이스 AI의 가장 큰 이점은 데이터가 기기를 떠나지 않는다는 것이다. 의료 기록, 법률 문서, 기업 기밀 등 민감한 데이터를 다룰 때 클라우드 전송 없이 로컬에서 처리할 수 있다. 동시에 API 호출 비용이 제로가 되므로, 스타트업과 개인 개발자에게는 게임 체인저급 변화다.

남은 과제

물론 한계도 있다. 8B 파라미터는 GPT-5나 Claude Opus 4급 대형 모델과 직접 비교하기 어렵다. 복잡한 추론이나 긴 맥락 처리에서는 여전히 클라우드 모델이 우위다. 하지만 일상적인 텍스트 생성, 요약, 번역, 코드 자동완성 등 대부분의 사용 사례에서는 8B면 충분하다는 것이 업계의 공감대다. Ternary Bonsai가 증명한 것은 “작은 모델도 제대로 압축하면 충분히 쓸 만하다”는 사실이다.

Trend Insight — 2026년 AI 산업의 키워드는 “크기”에서 “밀도”로 전환되고 있다. 파라미터 수를 늘리는 스케일링 경쟁 대신, 같은 성능을 얼마나 적은 자원으로 달성하느냐가 새로운 전쟁터다.

출처

AI Biz Insider · AI 트렌드 · aibizinsider.com

폰에서 AI 돌렸더니…

1.58비트의 마법 – 삼진 양자화란 무엇인가

가중치 3개로 AI를 만든다

벤치마크 – 9배 작은데 성능은?

8B 모델이 1.75GB

기가바이트당 지능 밀도

실전 성능 – 폰에서 AI가 달린다

M4 Pro: 초당 82토큰

iPhone 17 Pro Max: 초당 27토큰

이것이 의미하는 것

프라이버시와 비용의 동시 해결

남은 과제

관련 글

출처

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

The Pentagon Banned This AI — The NSA Uses It Anyway

Jira 데이터 몰래 쓴다고?

This Chip Startup Just Filed to Take On NVIDIA

코드 에디터 하나에 50조…

폰에서 AI 돌렸더니…

1.58비트의 마법 – 삼진 양자화란 무엇인가

가중치 3개로 AI를 만든다

벤치마크 – 9배 작은데 성능은?

8B 모델이 1.75GB

기가바이트당 지능 밀도

실전 성능 – 폰에서 AI가 달린다

M4 Pro: 초당 82토큰

iPhone 17 Pro Max: 초당 27토큰

이것이 의미하는 것

프라이버시와 비용의 동시 해결

남은 과제

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

The Pentagon Banned This AI — The NSA Uses It Anyway

Jira 데이터 몰래 쓴다고?

This Chip Startup Just Filed to Take On NVIDIA

코드 에디터 하나에 50조…

AI Biz Insider에서 더 알아보기

AI Biz Insider에서 더 알아보기