GPU 없는데 이게 돌아간다고?

GPU 없는 서버에서의 로컬 LLM, AI 검색 SEO, 통합 스토리지 API를 상징하는 그린 테마 개발 일러스트

DIGEST

GPU 없는 2016년형 Xeon 서버에서 26B MoE 모델을 ‘읽기 속도’로 실행한 실험
ChatGPT·Claude·Perplexity 등 AI 검색을 겨냥한 Claude Code용 GEO 우선 SEO 스킬
S3·R2·GCS·Azure 등 29종 스토리지를 단일 API로 다루는 Files SDK

오늘 GeekNews에서 가장 눈길을 끈 세 가지는 모두 “비싼 인프라 없이도 된다”는 한 방향을 가리킵니다. GPU 없는 10년 된 서버로 최신 LLM을 돌리고, 비싼 광고 대행 대신 스킬 하나로 AI 검색 노출을 점검하고, 스토리지 종류마다 코드를 다시 짜던 일을 어댑터 교체 한 번으로 끝냅니다. 개발자와 작은 팀에게 실질적으로 도움이 되는 TOP3를 정리했습니다.

GPU 없는 서버가 26B 모델을 돌렸다

2016년 Xeon · DDR3 · GPU 0개의 반전

한 개발자가 2016년형 Intel Xeon E5-2620 v4, DDR3 128GB, GPU가 전혀 없는 재활용 서버에서 Gemma 4 26B-A4B 모델을 ‘ik_llama.cpp’ 포크로 실행했습니다. 핵심 통찰은 LLM 디코더 패스의 병목이 연산량이 아니라 메모리 대역폭이라는 점입니다. CPU는 다음 토큰을 계산하기보다 다음 가중치를 RAM에서 캐시로 끌어오길 기다리는 시간이 더 큽니다. 이른바 ‘메모리 벽(memory wall)’은 H100 같은 고가 장비에서도 똑같이 작동하는 본질적 한계입니다.

이 한계를 우회하기 위해 단순 실행이 아니라 다수의 플래그 조합이 동원됐습니다. ‘–spec-type mtp’로 작은 드래프터를 붙인 MTP 추측 디코딩을 쓰고, ‘–cpu-moe’와 ‘–merge-up-gate-experts’로 128개 전문가 중 토큰당 8개만 활성화되는 MoE 구조의 캐시 스래싱을 줄였습니다. ‘–run-time-repack’은 가중치 행렬을 CPU 캐시 레이아웃에 맞게 재배치하고, ‘–mlock’은 모델을 RAM에 고정해 스왑을 막습니다. 전체 메모리 요구량은 약 82GB로, 262K 컨텍스트에서는 가중치(약 25GB)보다 KV 캐시(약 56GB)가 더 컸습니다. 결과는 약 12토큰/초 수준으로, 대화형으로는 아쉽지만 백그라운드 자동화에는 충분합니다.

Tech Insight — 핵심은 실리콘 성능이 아니라 추론 엔진과 메모리 구조에 대한 이해입니다. ollama 같은 블랙박스 도구는 편하지만 오래된 하드웨어의 성능 노브를 숨깁니다. 사내에 놀고 있는 구형 서버가 있다면, 민감 데이터를 외부로 보내지 않는 로컬 추론용으로 충분히 재활용할 수 있다는 신호입니다.

SEO가 ‘AI 검색 최적화’로 바뀐다

geo-seo-claude · 스킬 하나로 GEO 점검

geo-seo-claude는 ChatGPT, Claude, Perplexity, Google AI 오버뷰 같은 AI 검색 엔진을 겨냥하면서 전통 SEO 기반도 함께 유지하는 Claude Code용 스킬입니다. ‘GEO-first, SEO-supported’ 방식으로, ‘/geo audit’을 실행하면 5개 서브에이전트가 동시에 가동되어 AI 가시성, 플랫폼, 기술 SEO, 콘텐츠/E-E-A-T, 스키마를 병렬 분석하고 0~100점의 GEO 점수로 종합합니다.

특히 실무적으로 유용한 지표가 많습니다. AI가 인용하기 좋은 구절은 134~167단어의 자기완결적이고 사실 밀도가 높은 형태라는 ‘인용 가능성 점수화’, GPTBot·ClaudeBot·PerplexityBot 등 14종 이상 AI 크롤러의 robots.txt 점검, 그리고 백링크보다 AI 가시성과 3배 강한 상관관계를 보이는 ‘브랜드 언급’ 스캔(YouTube·Reddit·Wikipedia·LinkedIn 등 11개 플랫폼)이 포함됩니다. llms.txt 생성과 클라이언트 제공용 마크다운/PDF 리포트, 13개 전문 서브 스킬과 JSON-LD 스키마 템플릿까지 묶여 있으며 MIT 라이선스로 공개됐습니다.

Tech Insight — 동일 쿼리에서 ChatGPT와 Google AI Overviews 양쪽에 인용되는 도메인은 11%에 불과합니다. 검색 트래픽이 ‘파란 링크 클릭’에서 ‘AI 답변 속 인용’으로 옮겨가는 지금, 콘텐츠를 운영하는 팀이라면 GEO를 별도 항목이 아니라 기본 점검표에 넣어야 할 시점입니다.

스토리지 코드, 어댑터 한 줄로 끝

Files SDK · Write Once, Store Anywhere

Files SDK는 S3, R2, GCS, Azure 등 29종의 객체/blob 스토리지를 하나의 통합 SDK로 처리합니다. 40개 이상의 어댑터를 단일 인터페이스 뒤에 두기 때문에, 백엔드를 바꿔도 어댑터만 교체하면 모든 호출 지점을 그대로 유지할 수 있습니다. upload, download, head, exists, copy, move, list, delete를 모든 어댑터에서 동일한 호출로 처리하고, 네이티브 클라이언트가 꼭 필요할 때를 위한 escape hatch도 제공합니다.

기능 구성이 실전형입니다. 큰 body나 무제한 스트림을 나누는 병렬 multipart 업로드, 콜백 하나로 바이트 단위 진행률 표시, HTTP 206에 매핑되는 ranged read로 영상 seek과 다운로드 재개가 가능합니다. onAction·onRetry·onError 라이프사이클 훅을 생성자에서 한 번만 연결하면 모든 어댑터의 모든 작업에 적용되고, ‘sync()’로 변경된 것만 미러링하는 dry-run 백업도 됩니다. Vercel AI SDK, OpenAI Agents, Claude·MCP에 파일 도구를 제공하고 CLI까지 동봉되며, 각 어댑터의 네이티브 SDK는 선택적 peer dependency로 실제 쓰는 것만 설치됩니다. MIT 라이선스입니다.

Tech Insight — 멀티 클라우드나 벤더 종속(lock-in) 회피를 고민하는 팀에게 스토리지 추상화 계층은 보험과 같습니다. 유사 프로젝트로 Apache OpenDAL이 있으니, 언어 생태계와 어댑터 지원 범위를 비교해 도입하면 마이그레이션 비용을 크게 낮출 수 있습니다.

출처

AI Biz Insider · Tech Digest · aibizinsider.com

GPU 없는데 이게 돌아간다고?

GPU 없는 서버가 26B 모델을 돌렸다

2016년 Xeon · DDR3 · GPU 0개의 반전

SEO가 ‘AI 검색 최적화’로 바뀐다

geo-seo-claude · 스킬 하나로 GEO 점검

스토리지 코드, 어댑터 한 줄로 끝

Files SDK · Write Once, Store Anywhere

관련 글

출처

이 글 공유하기:

이것이 좋아요:

AI Biz Insider에서 더 알아보기

코멘트

댓글 남기기응답 취소

더 많은 게시물

홀로 선 청년에게 3천만원…

개발자 없이 앱 만들었더니…

낳으면 300만원, 2년 뒤 소멸

Anthropic’s Safest AI Met a Vending Machine. It Got Ugly.

AI Biz Insider에서 더 알아보기

AI Biz Insider에서 더 알아보기