AI가 밤마다 꿈을 꿉니다…

TL;DR

앤트로픽이 5월 6일 Claude Managed Agents에 ‘Dreaming’을 리서치 프리뷰로 공개했다.
세션이 끝난 사이 메모리를 재정리해 반복 실수·공통 워크플로우·팀 선호를 학습한다.
함께 풀린 outcomes·multiagent orchestration·webhooks로 에이전트가 자가 검증·병렬 실행한다.
Harvey는 완료율 약 6배, Wisedocs는 문서 리뷰 50% 단축의 초기 성과를 보고했다.

사람은 자는 동안 낮에 들어온 정보를 정리한다. 이번에 앤트로픽이 던진 카드는 그 메커니즘을 AI 에이전트에 이식하는 시도다. Claude Managed Agents에 새로 들어온 ‘Dreaming’은 세션이 끝난 뒤 따로 도는 스케줄러 — 즉, 에이전트가 일을 멈춘 사이에 과거 세션 기록을 읽고 메모리 저장소를 다시 짠다. 동시에 공개된 outcomes, multiagent orchestration까지 묶어 보면 단순 챗봇에서 자가 학습·자가 검증하는 운영 단위로 무게중심이 옮겨가는 흐름이 분명해진다.

Dreaming, 잠든 사이 메모리를 재정리한다

동작 방식: 세션 사이의 ‘편집자’

Dreaming은 에이전트가 작업 중이 아닐 때 도는 스케줄 프로세스다. 기존 메모리 저장소와 최근 세션 트랜스크립트를 함께 읽어, 중복은 합치고 모순되거나 낡은 항목은 최신 값으로 교체한 새 메모리 저장소를 만든다. 단일 세션 안에서는 보이지 않던 패턴 — 반복되는 실수, 여러 에이전트가 자연스럽게 수렴한 워크플로우, 팀 단위 공통 선호 — 이 표면 위로 올라온다.

통제권은 개발자에게

앤트로픽은 dreaming의 결과를 자동으로 메모리에 반영할지, 사람이 검토한 뒤 적용할지 선택할 수 있게 했다. 운영 환경에서는 후자가 안전하다. XDA는 “프리뷰 기간에 깨지는 변경이 들어올 수 있으므로 민감한 워크플로우에는 아직 적용하지 말라”는 앤트로픽의 권고를 함께 전했다.

Trend Insight — ‘메모리’는 RAG·벡터 DB 단계에서 한 차례 정리됐지만, 메모리의 ‘품질’을 유지·승급시키는 메타 레이어는 비어 있었다. Dreaming은 그 자리를 노린 첫 상용 카드다. 메모리 쓰기·읽기 그 위에 ‘편집’이 추가되는 구조라고 보면 된다.

함께 풀린 두 카드: outcomes와 multiagent orchestration

Outcomes — 루브릭으로 자가 검증

개발자가 성공 기준을 루브릭으로 적어두면, 별도 채점 에이전트가 자기 컨텍스트 윈도우에서 결과물을 평가한다. 채점자는 작업자 에이전트의 추론에 오염되지 않은 채 “무엇이 부족한지” 짚고, 작업 에이전트는 다시 시도한다. 앤트로픽 내부 벤치마크 기준 표준 프롬프트 루프 대비 작업 성공률이 최대 10p 올라갔고, 파일 생성에서 docx +8.4%·pptx +10.1%를 기록했다.

Multiagent Orchestration — 리드와 전문가의 분업

한 에이전트가 다 처리하기 어려운 작업에서는 리드 에이전트가 일을 쪼개 각각의 모델·프롬프트·툴을 가진 서브에이전트에 위임한다. 배포 이력·에러 로그·메트릭·서포트 티켓을 동시에 훑는 식이다. 서브에이전트는 공유 파일시스템에서 병렬로 일하면서 리드의 컨텍스트에 기여하고, 모든 단계는 Claude Console에서 추적된다.

Trend Insight — dreaming(학습)·outcomes(검증)·multiagent(분업)는 따로 보면 각자의 기능이지만, 함께 보면 “사람 매니저가 하던 업무”를 분해해 자동화한 구성이다. 에이전트 운영의 SRE가 만들어지는 신호다.

실제 도입 효과 — 네 곳의 숫자

Harvey · Wisedocs · Netflix · Spiral

법률 AI 회사 Harvey는 장문 드래프팅·문서 생성을 Managed Agents로 묶어 운영 중이다. Dreaming 적용 후 파일 포맷별 우회법, 툴별 패턴이 세션 사이에 누적되면서 자체 테스트에서 완료율이 약 6배 올라갔다. 문서 품질 검증 서비스 Wisedocs는 outcomes로 사내 가이드라인을 채점 기준으로 박아두자 리뷰 속도가 50% 빨라졌고, 팀 표준과의 정렬도 유지됐다.

Netflix 플랫폼 팀은 수백 개 빌드 로그를 multiagent로 병렬 분석해, 수천 개 앱에 영향을 주는 변경에서 ‘되풀이되는 이슈’만 골라낸다. Every의 글쓰기 서비스 Spiral은 리드 에이전트를 Haiku로 돌려 요청 접수·질문을 맡기고, 드래프팅은 Opus 서브에이전트에 위임한다. 사용자가 여러 안을 요청하면 서브들이 병렬로 글을 쓰고, outcomes 루브릭을 통과한 글만 사용자에게 돌아간다.

Trend Insight — 공통 패턴은 “리드는 가벼운 모델, 디테일은 강한 모델”의 모델 믹스. Haiku·Sonnet·Opus 같은 한 벤더 안의 멀티 티어를 비용 최적화 도구로 쓰는 설계가 자리잡고 있다.

국내 팀이 지금 점검할 것

메모리 정책·검증 루브릭·모델 믹스

첫째, 사내 에이전트의 메모리 저장소를 ‘쓰기 전용’으로 굴리고 있다면, dreaming 같은 ‘메모리 큐레이션 단계’를 운영 계획에 미리 넣어두는 게 좋다. 안 그러면 6개월 뒤 메모리에는 모순된 항목이 산처럼 쌓인다. 둘째, 사람이 매번 검토하는 QA 단계를 outcomes 루브릭으로 옮기면 검수 인력 부담이 줄어든다 — 단, 루브릭을 적는 일이 새로운 시니어 업무가 된다.

셋째, Spiral의 Haiku 리드·Opus 작업 구조는 한국 SaaS의 토큰 비용 구조와 잘 맞는다. 사용자 응대·간단 분기는 저가 모델, 핵심 산출물은 고가 모델로 분리하는 패턴을 견적·운영 단계에서 먼저 가정해 두면, 비용 시뮬레이션이 훨씬 정확해진다. Dreaming은 아직 리서치 프리뷰지만, outcomes·multiagent는 퍼블릭 베타로 바로 쓸 수 있다.

출처

AI Biz Insider · AI 트렌드 · aibizinsider.com

AI가 밤마다 꿈을 꿉니다…

Dreaming, 잠든 사이 메모리를 재정리한다

동작 방식: 세션 사이의 ‘편집자’

통제권은 개발자에게

함께 풀린 두 카드: outcomes와 multiagent orchestration

Outcomes — 루브릭으로 자가 검증

Multiagent Orchestration — 리드와 전문가의 분업

실제 도입 효과 — 네 곳의 숫자

Harvey · Wisedocs · Netflix · Spiral

국내 팀이 지금 점검할 것

메모리 정책·검증 루브릭·모델 믹스

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

Amazon Tested 40 Voice AI Startups. This One Took 100%.

Copilot 측정한 팀, 다 멈춰

공개도 안 한 회사에 7천억…