에이전트 스택과 개발 도구 운영 업데이트 #52

2026년 6월 19일 — 6 min read

오늘의 레터

GitHub이 6월 17일 GitHub Copilot의 컨텍스트 처리 효율화와 Auto 기반 모델 라우팅 개선 내용을 공개함
GitHub Copilot for VS Code에는 반복 프롬프트 prefix를 재사용하는 prompt caching과 필요 시점에만 도구 정의를 불러오는 tool search를 적용함
MCP 도구, 터미널 명령, 파일 작업, 워크스페이스 검색 같은 넓은 도구 집합을 매 턴 전체 주입하지 않아 장기 에이전트 세션의 고정 토큰 비용을 줄이는 구조임
Auto는 첫 프롬프트 이후 작업 의도와 현재 모델 상태를 함께 보고 모델을 고르며, 가용성·속도·오류율·비용 신호와 HyDRA 라우팅 모델을 함께 사용함
모델 전환은 첫 턴과 compaction 이후 같은 자연스러운 cache 경계에서만 주로 수행해 중간 전환으로 인한 cache 손실을 줄이도록 설계함
GitHub은 라우팅 모델을 16개 언어 계열 대화로 학습했다고 밝혔고, Auto with task intent는 VS Code·github.com·모바일에 적용됐으며 Copilot CLI·GitHub App·추가 IDE로 확대 예정임

원문: github.blog
참고: augmentcode.com

AWS가 6월 17일 Amazon SageMaker AI Async Inference에 인라인 요청 페이로드 지원을 추가했다고 발표함
InvokeEndpointAsync API에 새 Body 파라미터가 추가됐고, 최대 128,000바이트 payload를 요청 본문에 직접 담아 전송 가능함
기존에는 매 호출마다 입력 데이터를 Amazon S3에 업로드한 뒤 InputLocation으로 엔드포인트를 호출해야 했지만, 이제 작은 입력은 S3 업로드 없이 1회 호출로 처리 가능함
Body와 InputLocation은 함께 사용할 수 없고, 크기 초과나 동시 지정 시 동기 ValidationError를 반환함
출력 동작은 기존과 같고 결과는 S3 OutputLocation에 기록되며, 기존 async 엔드포인트는 모델·컨테이너 변경 없이 사용 가능함
작은 JSON 프롬프트나 구조화 데이터 요청에서는 네트워크 왕복 1회와 S3 PUT 1회를 줄여 지연·권한 설정·입력 버킷 정리 부담을 낮추는 구조임
이미지·오디오·대용량 문서처럼 128,000바이트를 넘는 입력이나 S3 보관·재실행 이력이 필요한 워크로드는 기존 InputLocation 방식이 권장됨
이 기능은 서울 리전을 포함한 31개 상용 AWS 리전에서 제공됨

원문: aws.amazon.com

Vercel이 6월 17일 런던 Ship 2026에서 Agent Stack을 공개하고 에이전트 구축용 핵심 구성요소를 발표함
Agent Stack은 AI SDK, AI Gateway, Workflow SDK, Vercel Sandbox, Chat SDK로 구성되며 모델 호출, 내구성 있는 워크플로, 격리 실행 환경을 제공함
AI SDK는 여러 모델 제공자에 공통 API를 제공하고, AI Gateway는 단일 엔드포인트에서 수백 개 모델 라우팅과 장애 시 자동 페일오버를 지원함
Vercel Connect도 함께 공개됨. 장기 제공자 토큰 대신 작업 단위의 임시 자격증명을 발급해 외부 도구·데이터·서비스 접근을 제어하는 구조임
오픈소스 프레임워크 eve도 소개됨. 에이전트를 단일 디렉터리 구조로 정의하고, 마크다운 지침과 TypeScript 도구, 승인·서브에이전트·평가 구성을 포함함
백엔드 지원도 확대됨. FastAPI, Flask, Express, Hono 실행을 지원하고 REST API, 큐, 크론, MCP 서버 같은 백엔드 전용 서비스 호스팅이 가능함
Vercel Services는 7월 1일 출시 예정이며, 프런트엔드와 백엔드를 함께 배포하고 서비스 간 통신을 퍼블릭 인터넷 없이 처리하도록 설계됨
엔터프라이즈용 기능으로 Enterprise Managed Users, Vercel Passport, AWS 기반 BYOC 프라이빗 베타를 제시했고, Private Beta의 Vercel Agent는 운영 배포를 감시하고 수정 PR을 여는 기능을 예고함

원문: vercel.com

Hugging Face가 2026년 6월 18일 블로그에서 오픈 모델 기반 코딩 에이전트가 CLI 도구를 얼마나 효율적으로 다루는지 측정하는 벤치마크 방식을 소개함
최종 정답 여부만 보지 않고 작업 완료까지 필요한 턴 수, 토큰 수, 실행 시간, 실패 경로를 함께 비교하는 구조임
사례로 transformers를 사용했고, 같은 감성 분류 결과라도 40줄 파이썬 스크립트를 짜는 경로와 `transformers classify` 한 번으로 끝내는 경로를 구분해 평가함
각 작업은 bare, clone, skill의 3개 티어로 실행되며, skill 티어는 CLI 문서와 작업 예시를 문맥에 넣어 에이전트가 더 짧은 경로를 찾는지 측정함
전체 실험은 pi coding agent로 구동하고, 모델·리비전·태스크 조합별 실행을 Hugging Face Jobs에 병렬 분산해 동일 하드웨어 조건을 맞춤
Hugging Face는 앞선 hf CLI 재설계에서 에이전트 토큰 사용량이 1.3–1.8배, 최대 6배까지 줄었다고 언급하며, 같은 접근을 transformers에도 검증하려는 목적을 설명함

원문: huggingface.co
참고: venturebeat.com

조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.

#Amazon #GitHub #HuggingFace #Vercel