AI 잘 쓰는 1%는 이걸 한다...

DIGEST

Anthropic 엔지니어 Eugene Yan이 공개한 AI 협업 다섯 가지 원칙 — 컨텍스트·취향·검증·위임·피드백 루프로 복리 구조 설계
whichllm — 파라미터 수가 아닌 실측 벤치마크로 내 GPU에서 진짜로 최고 성능을 내는 로컬 LLM을 골라주는 CLI 도구
2025 DORA가 짚은 한 문장 — 조직의 90%가 내부 플랫폼을 도입했고, 플랫폼 품질이 AI 도구 ROI를 가르는 직접 지표라는 사실

2025 DORA 보고서는 충격적인 숫자 하나를 던졌다. 조사된 조직의 90%가 이미 최소 하나 이상의 내부 플랫폼을 운영하고 있다는 것. 그런데 더 무거운 사실은 따로 있었다 — 플랫폼 품질이 AI 도구의 ROI를 직접 예측한다는 결론이다. 오늘 GeekNews TOP3는 정확히 그 교차점에서 만난다. Anthropic 엔지니어가 풀어쓴 AI 협업 복리 공식, 내 하드웨어에서 진짜 돌아가는 LLM을 골라주는 오픈소스 CLI, 그리고 플랫폼 엔지니어링의 처음부터 끝까지. 다섯 가지 원칙과 일곱 가지 실전 우선순위가 한 화면에서 정렬되는 자리다.

AI와 함께 일하며 복리처럼 쌓아 성장하는 법

컨텍스트·취향·검증·위임·피드백, 다섯 개의 톱니바퀴

Anthropic의 테크니컬 스태프 Eugene Yan(전 Amazon 추천·LLM 수석 사이언티스트)이 정리한 AI 협업 실무 가이드다. 그가 제시한 다섯 가지 원칙은 컨텍스트 제공, 취향 설정, 검증 자동화, 위임 확대, 피드백 루프 — 단순한 팁이 아니라 모든 작업 산출물이 다음 세션의 입력으로 누적되는 복리 구조를 설계하는 방법이다. 그는 모든 코드를 ~/src에, 지식 작업을 ~/vault에 정리해 모델이 grep과 glob으로 컨텍스트를 직접 검색할 수 있게 만들고, CLAUDE.md를 신입 온보딩 문서처럼 작성하라고 권한다.

핵심 트릭은 지연 로딩(lazy loading)이다. CLAUDE.md에 모든 규칙을 다 적으면 매 세션마다 전체가 토큰으로 환산되는 ‘컨텍스트 세금’이 발생한다. 대신 글로벌·레포·프로젝트 디렉터리별로 스코프를 나누고, 가이드 파일은 “관련 시 읽기” 형태로 경로만 명시한다. 주 1회 이상 반복되는 작업은 /polish, /write, /daily 같은 스킬로 전환한다. 검증은 사다리 구조로 — 가장 아래는 ruff format 같은 post-edit 훅(결정적, 토큰 0), 위로 갈수록 테스트·eval·LLM 리뷰가 쌓인다.

위임은 두 갈래의 드리프트를 견디는 설계여야 한다. 실행 드리프트(작업을 올바르게 하는지)는 자주 확인, 방향 드리프트(올바른 작업을 하는지)는 가끔 확인한다. 큰 작업을 위임하면 3~6개 세션을 병렬로 굴릴 수 있는데, 이 때 git worktrees로 독립 체크아웃을 만들고 tmux 타이틀에 상태 아이콘과 Haiku가 생성한 짧은 레이블로 각 패널을 식별하는 관찰 가능성 인프라가 병목이 된다. 그가 약 2,500개의 과거 사용자 턴을 스캔해 보니 상당수가 “did you check…”, “still wrong” 같은 표현이었다 — 자발적으로 했어야 할 작업의 누락 신호다. 이 패턴을 마이닝해 다시 CLAUDE.md와 스킬에 반영하는 게 피드백 루프의 완성이다.

Tech Insight — ‘AI를 잘 쓴다’의 본질은 프롬프트 스킬이 아니라 설정을 코드처럼 관리하는 능력이다. 메모리(사실)와 설정(취향)을 분리하고, 트랜스크립트를 데이터로 재투입하는 사람이 6개월 뒤 가장 멀리 간다. 인간 팀에 똑같이 적용되는 점도 의미심장하다 — 결국 협업자를 한 번에 한 피드백씩 훈련시키는 일이다.

whichllm — 내 하드웨어에서 진짜 최고 성능을 내는 로컬 LLM 찾기

파라미터 수가 아닌 ‘실측’으로 골라주는 CLI

로컬 LLM 시장의 가장 큰 함정은 “VRAM에 들어가는 가장 큰 모델”을 무작정 선택하는 것이다. whichllm은 그 함정을 정면으로 깨는 도구다. GPU·CPU·RAM을 자동 감지한 뒤 LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO, Open LLM Leaderboard를 0–100 통합 점수로 병합해 시스템에 맞는 상위 모델을 랭킹으로 제시한다. RTX 4090 시뮬레이션에서 32B가 들어가는데도 신세대 27B(Qwen3.6-27B)를 1위로 추천한 사례는 이 도구의 사고방식을 단적으로 보여준다.

진짜 차별점은 ‘근거 등급화 5단계’다. 모든 점수는 direct / variant / base_model / line_interp / self_reported로 태그되고, 업로더가 띄운 허위 자체 보고나 작은 포크가 큰 베이스 점수를 빌려오는 크로스 패밀리 상속은 차단된다. 파라미터가 패밀리 dominant member에서 2배 이상 차이나면 점수 상속을 거부하는 식이다. VRAM도 가중치 + GQA KV 캐시 + 활성화 + 오버헤드를 모두 계산하고, 속도는 MoE active vs total을 분리해 통합 메모리 vs PCIe 부분 오프로드까지 반영한다.

실사용도 단순하다. whichllm run 한 줄이면 uv로 격리 환경을 만들고 모델 다운로드, 채팅까지 자동 처리한다. --gpu "RTX 5090"으로 구매 전 시뮬레이션, plan "llama 3 70b"으로 역방향 GPU 조회, upgrade로 현재 vs 후보 GPU 비교까지 가능. --json | jq로 Ollama 파이프라인에 꽂아 쓰는 것도 자연스럽다. NVIDIA·AMD·Apple Silicon·CPU-only를 모두 지원하고 GGUF / AWQ / GPTQ / FP16 / BF16 어떤 포맷도 OK. MIT 라이선스다.

Tech Insight — “어떤 모델이 좋은가”보다 “내 환경에서 어떤 모델이 좋은가”로 질문을 바꾸는 도구다. 작성자의 추천 결과(Qwen3-Next-80B-A3B, Qwen3.6-27B, DeepSeek-V4-Flash, gpt-oss-120b, Qwen3-235B)에서 보이듯 Qwen 계열의 강세는 분명하다. 로컬 LLM PoC 단계에서 가장 비싼 의사결정 비용을 단축시키는 ‘인프라 의사결정 도구’에 가깝다.

플랫폼 엔지니어링의 모든 것 — 왜, 어떻게, 성공은 어떤 모습인가

‘과잉 일반화 늪’에서 플랫폼이 자라는 이유

Luca Vallin이 짚은 핵심 진단은 ‘과잉 일반화 늪(over-general swamp)’이다. 클라우드와 OSS가 큐, 오브젝트 스토어, DB, CI 러너 등 무한한 프리미티브를 제공하면서 각 팀이 제각각 파이프라인을 만들고, 1년 뒤 모든 서비스가 자체 배포 로직과 미묘하게 잘못된 IAM 바인딩의 ‘글루 코드 늪’에 빠진다. 실제 한 랜딩존 프로젝트에서는 20개 팀이 VPC·IAM·예산 알림용 거의 동일한 Terraform 모듈을 각자 재발명하며 각기 다른 버그를 안고 있었다. 플랫폼 엔지니어링은 이 늪을 빼내기 위한 사회기술적 규율이다 — DevOps의 리브랜딩이 아니다.

다섯 가지 기둥이 있다 — 큐레이션된 제품 접근(거절도 업무), 소프트웨어 기반 추상화(CNCF Score 같은 선언적 워크로드 스펙), OSS 커스터마이징과 메타데이터 레지스트리(Backstage는 270개 이상 조직이 운영 중), 광범위한 사용자 기반 서비스(엘리트가 아닌 중간값 개발자 대상), 파운데이션으로 운영(24/7 온콜·SLO·변경 관리). 시기도 중요한데, 엔지니어 10명일 때는 ‘협력’이면 충분하고 50명 이후 다수 배포 대상이 생기는 시점에 플랫폼 팀 구성이 적절하다고 본다. 너무 일찍 만든 1~2명 팀은 단순한 티켓 큐로 전락한다.

팀 구성은 Software / Systems / Reliability / Specialist 네 역할의 균형이며, 채용 1순위는 ‘고객 공감’이다. 좌절한 앱 개발자와 통화 후 문제를 명확히 이해하지 못하는 엔지니어는 적합하지 않다. 마이그레이션 비용은 항상 예상의 2~3배가 되며, ‘명령(mandate)’은 한두 번만 효과 있다 — 그 뒤엔 소음이 된다. 그래서 새 경로를 충분히 좋게 만들어 구 경로가 자연히 시들도록 하는 것이 최선이다. 그의 실전 우선순위 8단계는 지원 범위 결정·문서화 → 소프트웨어 추상화 투자 → 메타데이터 레지스트리 → 중간값 팀 우선 → 운영을 일급 기능으로 → 공감 기반 채용 → 무자비한 소통 → 종료·통합·거절 순.

Tech Insight — DORA 2025의 한 문장을 곱씹을 가치가 있다 — “나쁜 플랫폼은 AI 도구가 혼란을 증폭, 좋은 플랫폼은 처리량을 증폭”. AI 투자 ROI를 결정하는 변수는 모델 선택이 아니라, 그 모델이 작동하는 내부 인프라의 품질이다. CEO 관점에서 보면, AI 도구 도입과 플랫폼 투자는 같은 의사결정의 양면이다.

출처

AI Biz Insider · Tech Digest · aibizinsider.com

AI 잘 쓰는 1%는 이걸 한다…

AI와 함께 일하며 복리처럼 쌓아 성장하는 법

컨텍스트·취향·검증·위임·피드백, 다섯 개의 톱니바퀴

whichllm — 내 하드웨어에서 진짜 최고 성능을 내는 로컬 LLM 찾기

파라미터 수가 아닌 ‘실측’으로 골라주는 CLI

플랫폼 엔지니어링의 모든 것 — 왜, 어떻게, 성공은 어떤 모습인가

‘과잉 일반화 늪’에서 플랫폼이 자라는 이유

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

홀로 선 청년에게 3천만원…

개발자 없이 앱 만들었더니…

낳으면 300만원, 2년 뒤 소멸

Anthropic’s Safest AI Met a Vending Machine. It Got Ugly.

AI Biz Insider에서 더 알아보기

AI Biz Insider에서 더 알아보기