AI가 사람 말 끊기 시작했다

TL;DR

미라 무라티(전 OpenAI CTO)의 Thinking Machines Lab이 5/11 ‘인터랙션 모델’ 리서치 프리뷰 공개.
TML-Interaction-Small은 276B MoE(활성 12B), 응답 지연 0.40초로 GPT-realtime-2.0(1.18초) 대비 약 3배 빠름.
200ms 마이크로턴 구조로 듣는 도중 말하고, 카메라 보고 먼저 반응하며, 대화 중 툴까지 호출.
FD-bench v1.5에서 77.8점—Gemini-3.1(54.3), GPT-realtime-2.0(47.8)을 큰 격차로 따돌림.

지금까지 우리가 써온 모든 AI는 ‘턴제’였다. 사람이 말하면 AI가 듣고, AI가 답하면 사람은 기다린다. 미라 무라티가 OpenAI를 나와 만든 Thinking Machines Lab은 이 전제 자체를 깨러 나왔다. 5월 11일 공개된 인터랙션 모델은 ‘턴’을 없애고 200ms 단위로 입력과 출력을 동시에 처리한다. 핵심은 단순한 속도가 아니라—상호작용이 모델 외부 하네스가 아니라 모델 자체에 박혀 있다는 점이다.

왜 지금까지 AI는 답답했나

VAD 하네스로 버텨온 실시간 음성

GPT-realtime, Gemini Live 같은 음성 모델도 본질은 턴 기반이다. 사용자가 말을 끝냈는지 판단하는 별도 모듈(VAD, Voice Activity Detection)이 모델 앞에 붙어, ‘이제 말 끝났다’고 신호를 줘야 모델이 생성을 시작한다. Thinking Machines는 이 구조를 ‘하네스(harness)’라고 부르며, 모델보다 멍청한 부속품들로 실시간성을 흉내 내는 방식이라 비판한다.

‘쓴 교훈(Bitter Lesson)’의 음성판

머신러닝의 유명한 교훈—수작업으로 짜낸 시스템은 결국 스케일된 일반 능력에 밀린다—를 상호작용에도 적용한 것이 핵심 주장이다. 모델을 키우면 똑똑해지는 동시에 협업 능력도 같이 커져야 한다는 것. 그래서 음성, 영상, 텍스트 처리를 별도 인코더(Whisper, TTS 디코더)에 외주 주지 않고 트랜스포머와 함께 처음부터 공동 학습시켰다(encoder-free early fusion).

Trend Insight — 음성 AI 스타트업이 그동안 들였던 ‘파이프라인 엔지니어링’ 가치가 한 번에 깎일 수 있다. 모델이 직접 멀티모달을 처리하면 STT→LLM→TTS 스택을 묶어 팔던 솔루션은 차별점이 빠르게 사라진다.

200ms 마이크로턴 아키텍처

듀얼 모델: 상시 응답 + 백그라운드 추론

시스템은 두 모델이 병렬로 돈다. 인터랙션 모델은 항상 켜져 있고, 오디오·비디오·텍스트를 끊김 없이 받아 즉답한다. 깊은 추론이나 웹 검색, 툴 호출이 필요하면 백그라운드 모델에 ‘전체 대화 맥락 패키지’를 통째로 넘긴다. 결과가 스트리밍으로 돌아오면, 인터랙션 모델이 대화 흐름이 끊기지 않는 적절한 타이밍에 자연스럽게 끼워 넣는다. 한 명은 말동무, 다른 한 명은 백오피스에서 메모를 건네는 구조다.

200ms 청크로 입출력을 인터리브

핵심 설계 결정은 시간 정렬된 마이크로턴이다. 입력 200ms를 처리하면서 동시에 출력 200ms를 생성한다. 입력과 출력이 모두 스트림이고, 200ms 단위로 교대된다. 그래서 듣는 도중 말하고, 사용자가 카메라 앞에서 행동을 시작하는 순간 반응하며, 대화 중에 웹 검색을 돌리고 결과를 흘러나오는 대로 끼워 넣는 것이 가능해진다. 추론 인프라 측면에서는 매 200ms 청크를 새 요청처럼 받되 GPU 메모리에 영속 시퀀스로 누적하는 ‘스트리밍 세션’ 방식을 SGLang에 일부 업스트림했다.

Trend Insight — 200ms 단위 처리는 단순히 빠른 게 아니라 ‘대기 시간 = 0’ 상호작용을 가능케 한다. 콜센터, 라이브 통역, 실시간 코칭처럼 사람 반응 속도(0.2~0.4초)에 맞춰야 하는 시장이 풀리기 시작한다.

벤치마크: 숫자가 말하는 격차

속도와 품질을 동시에 잡았다

FD-bench v1 턴 전환 지연에서 TML-Interaction-Small은 0.40초, Gemini-3.1-flash-live(minimal)은 0.57초, GPT-realtime-1.5는 0.59초, GPT-realtime-2.0(minimal)은 1.18초였다. 대화 품질 지표인 FD-bench v1.5는 77.8점으로 Gemini(54.3), GPT-realtime-2.0(47.8)을 큰 폭으로 앞섰다. 음성 지능을 측정하는 Audio MultiChallenge APR에서는 43.4%를 기록해 인스턴트 모델 중 최고였고, 추론 시간을 길게 쓰는 GPT-realtime-2.0(xhigh, 48.5%)을 바짝 추격했다.

아예 새로 만든 능력: 시간·시각 능동성

Thinking Machines가 내놓은 자체 벤치마크가 더 충격적이다. 시간을 인지하고 정확한 시점에 먼저 말을 거는 TimeSpeak에서 64.7점(GPT-realtime-2.0은 4.3), 사용자 신호에 정확히 반응하는 CueSpeak에서 81.7점(상대는 2.9), 카메라 영상에서 반복 동작 횟수를 세는 RepCount-A에서 35.4점(상대는 1.3). 다른 모델은 사실상 0점에 가까운 영역을 혼자 풀어냈다는 뜻이다. 단순한 점수 차가 아니라 카테고리 자체를 새로 그은 셈이다.

Trend Insight — ‘능동적 AI’가 본격 시연됐다. 사용자가 묻기 전에 화면을 보고 코드 버그를 짚어주고, 운동 자세가 무너지는 순간 신호를 보내는 식이다. 클라이언트 데모용 시나리오를 만든다면 이 영역이 가장 임팩트가 크다.

한국 사업자가 챙겨야 할 포인트

아직은 리서치 프리뷰, 가격·API 미공개

제품이 아니라 한정 리서치 프리뷰다. 신청은 thinkingmachines.ai에서 받고, 향후 몇 달 내 일부 외부 접근을 열고 2026년 하반기 본격 출시를 예고했다. 모델 크기가 더 큰 변형도 준비 중이지만 현재는 실시간 서빙 비용 때문에 보류 상태다. 즉, 지금 시점에서 양산 서비스 적용은 불가하지만, PoC 신청 큐와 벤치마크 추적은 지금 시작해야 한다.

기존 음성 AI 로드맵 재점검 신호

국내에서 STT·LLM·TTS를 직접 묶어 음성 챗봇이나 콜센터 AI를 만들던 팀은 아키텍처 전제를 재검토할 시점이다. GPT-realtime, Gemini Live 종속 솔루션도 6~12개월 안에 풀듀플렉스 경쟁 모델이 쏟아질 가능성이 높다. 지금 RFP에 들어가는 음성 AI 사양에는 ‘턴 전환 지연 0.5초 이하’, ‘시각 능동 반응’ 같은 조항을 옵션으로라도 끼워두는 편이 안전하다.

Trend Insight — 무라티는 2024년 창업 직후 20억 달러를 모았다. 첫 결과물이 단순한 LLM이 아니라 ‘상호작용 모델’이라는 점—OpenAI·Anthropic이 안 가본 축으로 차별화하겠다는 신호다. 한국 입장에서는 음성·영상 중심 응용 시장에서 또 다른 1티어 모델 공급자가 등장한 것으로 봐야 한다.

출처

AI Biz Insider · AI 트렌드 · aibizinsider.com

AI가 사람 말 끊기 시작했다

왜 지금까지 AI는 답답했나

VAD 하네스로 버텨온 실시간 음성

‘쓴 교훈(Bitter Lesson)’의 음성판

200ms 마이크로턴 아키텍처

듀얼 모델: 상시 응답 + 백그라운드 추론

200ms 청크로 입출력을 인터리브

벤치마크: 숫자가 말하는 격차

속도와 품질을 동시에 잡았다

아예 새로 만든 능력: 시간·시각 능동성

한국 사업자가 챙겨야 할 포인트

아직은 리서치 프리뷰, 가격·API 미공개

기존 음성 AI 로드맵 재점검 신호

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

홀로 선 청년에게 3천만원…

개발자 없이 앱 만들었더니…

낳으면 300만원, 2년 뒤 소멸

Anthropic’s Safest AI Met a Vending Machine. It Got Ugly.

AI Biz Insider에서 더 알아보기

AI Biz Insider에서 더 알아보기