트랜스포머 쓰는 사람 지금 멈춰

트랜스포머 아키텍처 압축 어텐션, 에이전트 전용 언어 Zero, 오프라인 자막 추출 도구 — Tech Digest 2026-05-24
DIGEST
  • Gemma 4·Laguna XS.2·ZAYA1-8B·DeepSeek V4가 같은 달 공개되며 트랜스포머 블록 코드가 10배로 늘었다. 모두 KV 캐시·어텐션 비용 절감이 목표다.
  • Vercel Labs가 사람이 아닌 AI 에이전트를 사용자로 가정한 새 프로그래밍 언어 Zero를 공개했다. 컴파일러가 수리 계획을 구조화 데이터로 출력한다.
  • 국내 개발자 Blue-B의 WhisperSubTranslate v2.0이 공개됐다. 100% 로컬에서 영상 음성 추출과 14개 언어 SRT 자막 번역까지 끝낸다.

“기본 트랜스포머 블록은 PyTorch 50~100줄로 짤 수 있었다.” Sebastian Raschka의 4월~5월 정리는 이 문장으로 시작해, 지금은 코드 복잡도가 약 10배 늘었다는 진단으로 끝난다. 같은 주에 Vercel Labs는 사람이 아닌 에이전트를 위한 언어를 내놓았고, 국내 개발자는 클라우드 없이 영상 자막을 만드는 도구를 메이저 버전 업그레이드했다. 추상화는 단순해지는 방향이 아니라, 비용을 줄이는 방향으로 다시 쌓이는 중이다. 오늘 GeekNews TOP3가 같은 방향을 가리킨다.

트랜스포머 코드 10배 — KV·어텐션을 다 갈아엎는다

Gemma 4부터 DeepSeek V4까지, 같은 방향 다른 각도

Gemma 4 E2B는 35개 트랜스포머 레이어 중 처음 15개만 자체 KV를 계산하고, 나머지 20개 레이어는 같은 어텐션 타입의 가장 가까운 이전 비공유 레이어의 KV를 재사용한다. 128K 컨텍스트(bfloat16) 기준 E2B에서 약 2.7GB, E4B에서 약 6GB의 KV 캐시가 줄어든다. 같은 모델이 도입한 PLE(Per-Layer Embeddings)는 메인 트랜스포머의 capacity를 작은 effective 사이즈에 가깝게 유지하면서 추가 capacity는 별도 임베딩 테이블에 저장한다.

Poolside가 공개한 Laguna XS.2는 40개 레이어 중 30개가 슬라이딩 윈도우(512 토큰), 10개가 풀 어텐션이다. 새로운 점은 레이어별로 쿼리 헤드 수를 다르게 할당한다는 것 — 슬라이딩 윈도우 레이어는 KV 헤드당 쿼리 헤드 8개, 풀 어텐션 레이어는 6개다. 비싼 풀 어텐션 쪽에 쿼리 헤드를 더 적게 둬 어텐션 예산을 의도적으로 재배분한다.

Zyphra의 ZAYA1-8B는 NVIDIA GPU나 TPU가 아닌 AMD GPU에서 학습된 점부터 다르다. CCA(Compressed Convolutional Attention)는 Q·K·V를 모두 압축한 잠재 공간에서 직접 어텐션을 돌려, KV 캐시뿐 아니라 prefill·학습 시 어텐션 FLOPs까지 줄인다. 압축된 Q·K에는 convolutional mixing을 더해 로컬 컨텍스트를 저렴하게 보충한다.

DeepSeek V4의 변화는 두 갈래다. 첫째, mHC(Manifold-Constrained Hyper-Connections)로 잔차 경로를 단일 스트림에서 다중 병렬 스트림으로 넓혔다. 잔차 매핑을 doubly stochastic matrices 매니폴드에 사영해 깊은 모델에서도 신호가 안정적으로 재분배되도록 했다. 둘째, CSA(약한 압축률 m=4, DSA 스타일 top-k 선택)와 HCA(강한 압축 m’=128, 128 토큰을 압축 KV 1개로 묶고 dense attention)를 교차 배치했다. 1M 토큰 컨텍스트에서 V3.2 대비 DeepSeek V4-Pro는 추론 FLOPs 27%, KV 캐시 크기 10%다. V4-Flash는 각각 10%, 7%까지 떨어진다.

Tech Insight — 4개 모델이 다른 각도로 같은 천장을 두드리고 있다. 추론·에이전트 워크플로가 토큰 수를 늘리면서 KV 캐시·메모리 트래픽이 새 병목이 됐기 때문이다. GPT decoder 골격은 그대로 유지되지만, 트랜스포머 블록은 더 이상 50줄로 끝나지 않는다. 자체 모델을 만들지 않더라도 추론 비용 견적·하드웨어 선택 시 KV 공유와 압축 어텐션이 어떻게 가격을 흔드는지를 봐야 한다.


Vercel이 사람 안 쓰는 언어를 만들었다

에이전트가 주 사용자, 컴파일러가 수리 계획을 뱉는다

Vercel Labs가 실험 언어 Zero를 공개했다. 가정은 단순하다 — 코드 작성자의 다수는 곧 사람이 아니라 AI 에이전트가 된다. 그래서 처음부터 다시 설계했다. 세 가지 핵심 설계 원칙은 명확하다. 작은 표면적(small surface area): 규칙적인 문법과 적은 특수 케이스, 다음 편집을 가리키는 컴파일러 피드백. 라이브러리 우선(library first): 외부 패키지보다는 문서화된 표준 라이브러리 API로 대부분의 프로그램이 시작되도록. 도구로 검사 가능(inspectable by tools): 진단, 그래프, 크기 리포트, 설명, 그리고 수리 계획(repair plans)을 에이전트가 소비할 수 있는 구조화 데이터로 노출한다.

코드는 괄호 없는 Lisp 같으면서, 간략화된 Rust와 Go·Zig의 흔적이 동시에 보인다. 가장 단순한 예시는 fn answer i32 / ret + 40 2 / pub fn main Void world World ! / if == answer() 42 / check world.out.write “math works\n” 형태다. 컴파일러 단일 바이너리는 x86 Linux 기준 800KB, hello world 릴리스 빌드는 289 bytes다. 설치는 curl -fsSL https://zerolang.ai/install.sh | bash 한 줄로 끝난다.

에코시스템·표준 라이브러리 성숙도는 검증이 필요한 상태다. 그러나 컴파일러가 출력하는 진단·수리 계획을 1순위 사용자 인터페이스로 둔다는 선언은 그 자체로 새롭다. AGENTS.md 같은 메타데이터 포맷, agentmemory 같은 에이전트 영구 메모리 시스템이 함께 떠오르는 흐름과 같은 방향이다.

Tech Insight — 언어 설계의 페르소나가 인간 개발자에서 에이전트로 옮겨가는 첫 프로덕션 시도다. 당장 Zero를 도입할 팀은 많지 않을 것이다. 그러나 “에이전트가 코드를 점검·수리하기 좋은 출력”이 1순위 설계 기준이 된다는 것은, 기존 언어 진영(TypeScript·Rust·Go)에도 컴파일러 출력의 구조화·진단 품질을 압박하는 방향으로 작용할 가능성이 크다.


클라우드 없이 영상 자막 끝낸다

WhisperSubTranslate v2.0, whisper.cpp + 로컬 LLM 번역

국내 개발자 Blue-B가 공개한 WhisperSubTranslate v2.0의 사용법은 한 문장이다. 영상 파일을 던지면, whisper.cpp가 음성을 추출하고 SRT 자막을 14개 언어 중 선택한 언어로 만들어 준다. 전 과정이 100% 로컬에서 동작해 클라우드 업로드도, 계정 가입도 필요 없다. 번역 엔진은 네 가지에서 고르도록 한다 — 무료 MyMemory, 개인 키를 넣는 DeepL/OpenAI/Gemini, 그리고 v2.0의 메인 피처로 추가된 로컬 LLM(HY-MT GGUF)이다. HY-MT 경로를 선택하면 인터넷 연결 없이도 번역까지 끝낸다.

1~2시간짜리 강의 영상을 그대로 배치 큐에 던져 두고 자리를 비울 수 있다. Windows 포터블 빌드가 제공되며, Linux/macOS는 소스 빌드다. 한국어를 포함한 14개 타겟 언어를 지원한다. 라이선스는 GPL-3.0, 깃허브 저장소는 github.com/Blue-B/WhisperSubTranslate에 공개돼 있다.

FFmpeg 8.0이 Whisper 지원을 추가하고, 자동 자막 SRT 다운로드 서비스가 잇따라 등장한 흐름의 연장선이다. 차별점은 모든 단계를 로컬에서 끝낸다는 점, 그리고 번역 엔진을 무료→로컬 LLM→상용 API 순으로 단계적으로 올릴 수 있다는 점이다.

Tech Insight — Google AI Overviews가 트래픽을 흡수하는 시점에, 핵심 자료를 외부로 내보내지 않고 PC 안에서 끝내는 도구가 다시 늘고 있다. 외국어 강의·세미나 영상을 다루는 1인 학습자·내부 교육팀에 직접적으로 닿는다. 무료 MyMemory로 시작해 정확도가 부족하면 HY-MT GGUF로, 그래도 부족하면 DeepL/Gemini API로 단계적으로 올라가는 운영 시나리오가 현실적이다.


관련 글

출처

  1. Sebastian Raschka, Recent Developments in LLM Architectures (2026-05)
  2. Zero – 에이전트를 위한 프로그래밍 언어 (Vercel Labs)
  3. WhisperSubTranslate v2.0 GitHub Repository (Blue-B)
  4. GeekNews TOP3 (2026-05-24)

AI Biz Insider · Tech Digest · aibizinsider.com


AI Biz Insider에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

코멘트

댓글 남기기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기