AI 에이전트 운영과 개발 플랫폼 업데이트 #39

AI 에이전트 운영과 개발 플랫폼 업데이트 #39

오늘의 레터

  1. GitHub, 실패한 Actions용 Copilot 수정 기능 확대
  2. AWS, SageMaker JumpStart에 Nemotron 3 Ultra 추가
  3. NVIDIA·Microsoft, 윈도우용 로컬 AI 에이전트 도구 발표
  4. Cloudflare, AI Gateway 지출 제한 베타 공개

GitHub, 실패한 Actions용 Copilot 수정 기능 확대

GitHub, 실패한 Actions용 Copilot 수정 기능 확대
  • GitHub이 실패한 GitHub Actions 작업에 대해 Copilot이 수정안을 제안·반영하는 기능을 2026년 6월 4일 공개함
  • 대상 요금제는 Copilot Pro, Pro+, Max이며, 워크플로 실행 로그 페이지의 Fix with Copilot 버튼으로 시작 가능
  • Copilot cloud agent가 실패 원인을 조사한 뒤 수정 내용을 사용자 브랜치에 직접 푸시하고, 완료 후 리뷰를 요청하는 방식
  • 수정 작업은 GitHub의 클라우드 기반 개발 환경에서 수행되며, 로컬 환경 없이도 처리 가능
  • 테스트 실패나 linter 오류처럼 반복적이고 시간이 드는 CI 문제를 Copilot에 넘길 수 있도록 설계됨
  • 관련 사용 방법은 GitHub Docs의 Starting GitHub Copilot sessions 문서에서 확인 가능

원문: github.blog


AWS, SageMaker JumpStart에 Nemotron 3 Ultra 추가

  • AWS가 6월 4일 Amazon SageMaker JumpStart에서 NVIDIA Nemotron 3 Ultra의 day-zero 배포 지원을 발표함
  • 원클릭 방식으로 배포 가능하며, 모델 ID는 `huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4`로 제공됨
  • Nemotron 3 Ultra는 총 5,500억 파라미터·활성 550억 파라미터의 하이브리드 Transformer-Mamba MoE 구조와 최대 100만 토큰 컨텍스트를 지원함
  • NVFP4 정밀도 기준으로 장시간 에이전트 워크플로 추론 속도 5배, 복잡한 에이전트 작업 비용 최대 30% 절감 수치를 제시함
  • 에이전트 오케스트레이션, 코딩 에이전트, 딥리서치, 분기형 엔터프라이즈 자동화 같은 다단계 추론 업무를 주요 적용 사례로 제시함
  • 배포 인스턴스는 ml.p5en.48xlarge, ml.p5.48xlarge, ml.g7e.48xlarge를 지원하며, 엔드포인트 실행 중에는 시간당 GPU 비용이 계속 발생함
  • SageMaker Python SDK로 EULA 승인 후 바로 엔드포인트 배포와 추론 호출이 가능하고, 사용 종료 후 `delete_endpoint()`로 정리 필요함

원문: aws.amazon.com


NVIDIA·Microsoft, 윈도우용 로컬 AI 에이전트 도구 발표

NVIDIA·Microsoft, 윈도우용 로컬 AI 에이전트 도구 발표
  • NVIDIA와 Microsoft가 COMPUTEX 2026·Microsoft Build 2026에서 윈도우 PC용 온디바이스 AI 에이전트 개발 도구를 공개함
  • Microsoft eXecution Containers(MXC)로 코드 실행·파일 접근·작업 오케스트레이션에 격리와 정책 집행 계층을 제공함
  • NVIDIA OpenShell은 MXC 기반 윈도우 런타임으로, 정책 생성·관리, 추론 라우팅, 개인정보 식별 정보 가림 기능을 함께 제공함
  • OpenClaw와 Hermes Agent가 윈도우에서 MXC·OpenShell 기반 보안 강화를 추진 중이며, Hermes Agent는 네이티브 윈도우 지원과 데스크톱 앱도 추가됨
  • RTX Spark 제품군은 데스크톱·노트북에 최대 1페타플롭 AI 성능과 최대 128GB 메모리를 제공하며, Microsoft는 Surface RTX Spark Dev Box 개발자 에디션을 준비 중임
  • H Company의 Holo 3.1 모델은 컴퓨터 사용 모드에 맞춰 조정됐고 FP8 대비 메모리 사용량을 35% 낮춘 양자화 체크포인트를 포함함
  • NVIDIA는 llama.cpp와 vLLM 최적화도 함께 공개했으며, 에이전트 추론 성능은 최대 2배, vLLM은 추가 최적화로 2.6배 향상을 제시함

원문: developer.nvidia.com


Cloudflare, AI Gateway 지출 제한 베타 공개

  • Cloudflare가 6월 5일 AI Gateway에 비용 기준 지출 제한 기능을 공개하고, ID 기반 예산·라우팅 기능은 비공개 베타로 발표함
  • AI Gateway는 애플리케이션과 OpenAI·Anthropic·Google 등 모델 제공사 사이에서 요청을 중계하는 계층으로 동작함
  • 새 지출 제한은 토큰 수가 아닌 달러 예산 기준으로 집계되며, 모델·제공사·사용자·팀·애플리케이션 단위로 범위를 설정 가능함
  • 예산 기간은 일간·주간·월간과 고정형·롤링형을 지원하며, 누적 비용을 실시간으로 추적해 대시보드에서 필터링 가능함
  • 한도 도달 시 기본값은 추가 요청 차단이며, Dynamic Routes 규칙으로 더 저렴한 대체 모델로 우회하도록 설정 가능함
  • Cloudflare는 사내에서 Access의 JWT 신원 정보를 요청 메타데이터에 붙여 사용자별 비용, 팀별 사용량, 조직 단위 비용 배분을 추적 중이라고 설명함
  • 지출 제한 기능은 모든 요금제의 AI Gateway 사용자에게 오픈 베타로 제공되며, 대시보드와 API에서 설정 가능함

원문: blog.cloudflare.com


조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.

#AWS #Cloudflare #GitHub #NVIDIA

조코레터 구독하기

Read more