모델 바꿔도 소용없는 이유…

AI 에이전트 하네스 엔지니어링과 이중 워크플로우 개념도
DIGEST
  • Y Combinator, AI 시대 스타트업 아이디어 15개 공개 — 에이전트 칩부터 SaaS 챌린저까지
  • 하네스 엔지니어링: 같은 모델도 하네스만 바꾸면 벤치마크 30위에서 5위로 점프
  • Claude Code로 짜고 Codex로 리뷰하는 이중 에이전트 워크플로우 실전 가이드 등장

“좋은 에이전트를 만드는 일은 반복의 예술이고, 첫 버전이 없으면 반복도 없다.” 구글 크롬 엔지니어 애디 오스마니가 인용한 이 문장이 오늘 GeekNews를 관통한다. YC는 에이전트 시대에 걸맞은 스타트업 아이디어 15개를 쏟아냈고, 업계에서는 AI 모델 자체보다 그 모델을 감싸는 ‘하네스’가 진짜 성패를 가른다는 데이터가 쏟아지고 있다. 그리고 현장에서는 이미 두 개의 AI 코딩 에이전트를 한 레포에 동시에 굴리는 실전 패턴이 자리를 잡기 시작했다.

YC의 Requests for Startups — 2026년 여름

AI가 기반 기술이 된 시대, 15개 스타트업 기회

Y Combinator가 2026년 여름 배치를 앞두고 Request for Startups(RFS)를 공개했다. 이번 목록의 핵심 변화는 AI가 더 이상 ‘기능’이 아니라 ‘기반 기술’로 자리 잡았다는 진단이다. 소프트웨어, 서비스, 반도체를 근본부터 재구축하고, AI를 물리적 세계로 확장할 스타트업 아이디어 15개가 담겼다.

주목할 핵심 아이디어

AI 네이티브 서비스 기업 — 2023~2025년 대부분의 스타트업이 사람의 업무를 ‘돕는’ 도구를 만들었다면, 다음 단계는 소프트웨어가 아닌 서비스 자체를 판매하는 AI 네이티브 기업이다. 보험 중개, 회계·세무·감사, 컴플라이언스, 의료 행정이 특히 유망하다.

에이전트 워크플로우용 추론 칩 — 현재 GPU는 에이전트 워크로드에서 피크 활용률 30~40%에 그친다. NVIDIA가 Groq를 200억 달러에 인수했지만, 에이전트 루프 자체를 위한 칩 설계(빠른 컨텍스트 스위칭, 네이티브 추측적 디코딩)는 아직 공백이다.

SaaS 챌린저 — AI가 소프트웨어 생산 비용을 10~100배 축소하면서, 수십 년간 수백만 줄의 코드로 형성된 레거시 SaaS의 해자가 소멸하고 있다. 칩 설계 소프트웨어, ERP, 산업 제어 시스템 같은 1,000만 줄 규모 코드베이스가 새로운 타깃이다.

에이전트를 위한 소프트웨어 — 인터넷의 다음 1조 사용자는 사람이 아닌 AI 에이전트다. 에이전트에게는 API, MCP, CLI 같은 기계 판독 가능 인터페이스가 필요하고, 모든 주요 소프트웨어 카테고리가 에이전트를 일급 시민으로 설계하는 스타트업에서 재구축될 전망이다.

Tech Insight — YC의 RFS가 분기마다 공개되지만, 올해의 변화는 뚜렷하다. AI 적용이 버티컬과 엔터프라이즈에 훨씬 더 가깝게 다가왔고, “2~3명 팀이 법인 설립 전에 Fortune 10 기업이 사용할 제품을 출시할 수 있다”는 진단은 소규모 팀에게 10년 만의 최대 기회가 열리고 있음을 시사한다.


하네스 엔지니어링: 모델보다 중요한 것

AI 에이전트 = 모델 + 하네스

구글 크롬 엔지니어 애디 오스마니(Addy Osmani)가 ‘하네스 엔지니어링(Harness Engineering)’에 관한 분석을 내놓았다. 핵심 주장은 간단하다. 코딩 AI의 실제 성과는 모델 그 자체보다 그 모델을 둘러싼 하네스에서 결정된다는 것이다. 하네스란 시스템 프롬프트, 도구, 컨텍스트 관리, 훅(hook), 샌드박스, 피드백 루프를 모두 포함하는 개념이다.

벤치마크가 증명한 하네스의 힘

같은 Claude Opus 4.6 모델이라도 기본 하네스인 Claude Code 안에서는 터미널 벤치 2.0 하위권에 머물지만, 직접 손본 하네스로 옮기면 상위권으로 뛰어오른다. 비브 트리베디(Viv Trivedy)의 팀은 하네스만 교체해 같은 모델을 30위권에서 5위권으로 끌어올렸다. 모델이 가진 잠재력을 하네스가 깎아 먹고 있는 경우가 많다는 뜻이다.

래칫 원칙과 컨텍스트 부패

오스마니가 강조하는 ‘래칫(ratchet)’ 원칙은 AI의 실수를 영구적인 규칙으로 굳히는 방식이다. 테스트 코드를 주석 처리한 적이 있다면 규칙 문서에 한 줄을 추가하고 커밋 전 검사를 붙인다. 또한 AI의 컨텍스트 한도에 가까워질수록 판단력이 떨어지는 ‘컨텍스트 부패’ 문제를 해결하기 위해, 오래된 내용을 요약 압축하거나 구조화된 인수인계 문서로 새 세션을 시작하는 패턴이 제시된다.

Tech Insight — Claude Code, Cursor, Codex, Aider, Cline 같은 코딩 AI들은 속에 든 모델은 다르지만 하네스의 모양은 점점 닮아가고 있다. 업계가 같은 구조로 수렴한다는 사실은 이 분야의 최적해가 어디에 있는지를 보여주는 신호다. 엔지니어가 시간을 쏟아야 할 곳은 모델 갈아끼우기가 아니라, 자기 일에 맞는 하네스를 끊임없이 다듬는 작업이다.


Claude + Codex 이중 에이전트 워크플로우

같은 모델의 셀프 리뷰는 빈틈을 못 잡는다

한 개발자가 Claude Code와 OpenAI Codex를 한 레포에서 한 달간 함께 굴린 실전 경험을 8챕터 커리큘럼으로 정리했다. 핵심 구조는 단순하다. Claude Code는 메인 작성자, Codex는 advisory 리뷰어다. 같은 모델에게 자기 코드를 자기가 리뷰하게 시키면, 자기가 쓴 가정을 그대로 받아들여 빈틈을 잡지 못한다. 다른 모델을 옆에 두는 것이 핵심이다.

한 달 실전에서 검증된 패턴

가장 중요한 규칙은 advisory를 절대 차단(blocking)으로 만들지 않는 것이다. Codex가 CRITICAL을 잡아도 push는 통과시킨다. 차단으로 바꾸는 순간 모델 다운에 작업 전체가 멈추고, false positive 한 번에 개발자가 –no-verify로 hook을 통째 우회하기 시작한다.

또 다른 핵심은 CLAUDE.md와 AGENTS.md를 같은 내용으로 채우지 않는 것이다. 작성자에게는 “어떻게 만드는지”, 리뷰어에게는 “무엇을 의심해야 하는지”를 담아야 한다. 80% 이상 내용이 겹치면 분담이 사실상 안 되고 있다는 신호다.

실전 효과

한 달간 사용한 결과, 머지 직전에 잡히는 버그가 눈에 띄게 늘었다. Claude가 “잘 짰다”고 자신만만한 부분에서 Codex가 race condition이나 누락된 null 체크를 짚어내는 케이스가 자주 발생했다. 마이그레이션 SQL이나 결제 흐름처럼 되돌리기 어려운 변경 직전에 다른 모델이 한 번 더 본다는 점이 심리적으로 가장 큰 차이를 만들었다고 한다.

Tech Insight — 이 이중 에이전트 패턴은 앞서 다룬 하네스 엔지니어링의 실전 적용 사례이기도 하다. AI 도구가 빨라질수록 “어떤 도구를 쓰느냐”보다 “여러 도구의 사각지대를 어떻게 겹쳐 덮느냐”가 결정적 변수가 된다. 사람 코드 리뷰를 둘 이상에게 받는 이유와 같은 구조다.


관련 글

출처

  1. GeekNews (news.hada.io)
  2. Y Combinator — Requests for Startups, Summer 2026
  3. Addy Osmani — Agent Harness Engineering
  4. Rubric — Claude + Codex Dual Agent Workflow Curriculum

AI Biz Insider · Tech Digest · aibizinsider.com


AI Biz Insider에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

코멘트

댓글 남기기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기

AI Biz Insider에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기