AI 에이전트 통합과 추론 인프라 업데이트 #31
오늘의 레터
- Mistral AI, Vibe 통합 에이전트 공개
- Alibaba Cloud, 글로벌용 Qwen Cloud 출시
- NVIDIA, Dynamo Snapshot 쿠버네티스 추론 시작 시간 단축
Mistral AI, Vibe 통합 에이전트 공개
- Mistral AI가 2026년 5월 28일 Vibe를 공개하고, Le Chat을 업무·코딩용 단일 에이전트와 단일 라이선스로 통합함
- 기존 Le Chat의 대화, 설정, 플랜을 Vibe로 그대로 이전하며, 장기 실행·다단계 작업과 코딩 작업을 한 제품 안에서 처리하도록 구성됨
- Work Mode는 웹·모바일에서 동작하며 이메일·캘린더 정리, 심층 리서치, 문서 초안 작성, 반복 업무 스케줄링을 지원함
- 업무 데이터 연결 범위는 Google Workspace, Outlook, SharePoint, Slack, GitHub 및 커스텀 커넥터까지 포함됨
- Code Mode는 전용 웹 화면에서 원격 코딩 에이전트를 실행하고, VS Code용 Mistral Vibe 확장도 함께 제공함
- 코딩 작업은 기능 구현, 버그 수정, 리팩터링, 리뷰 가능한 풀 리퀘스트 생성까지 포함하며, 웹 앱·에디터·터미널 전반에서 이어서 수행 가능함
- Vibe는 추론, 에이전트 작업, 도구 호출, 코딩에 맞춘 Mistral 플래그십 모델 기반으로 동작함
- 요금은 개인용 월 14.99달러, 팀용은 사용자당 월 24.99달러로 안내됨
원문: mistral.ai
Alibaba Cloud, 글로벌용 Qwen Cloud 출시
- Alibaba Cloud가 2026년 5월 28일 글로벌 시장용 AI 네이티브 플랫폼 `Qwen Cloud`를 출시함
- Qwen Cloud는 AI 에이전트를 위한 플랫폼으로 소개됐으며, 멀티모달 모델 접근을 함께 제공함
- 공식 커뮤니티 설명에서 기업이 AI 에이전트를 더 쉽게 구축·배포·관리할 수 있는 풀스택 AI 생태계의 일부로 제시됨
- 같은 주간 공개된 글로벌 고객 대상 에이전트 AI 제품군, 모델 업그레이드, 인프라 확장 발표와 맞물린 출시 일정임
- Alibaba Cloud는 5월 26일~28일 연속 발표를 통해 에이전트 중심 클라우드·모델·플랫폼 포트폴리오를 글로벌 시장으로 넓히는 흐름을 드러냄
원문: community.alibabacloud.com
참고: alibabacloud.com
NVIDIA, Dynamo Snapshot 쿠버네티스 추론 시작 시간 단축

- NVIDIA가 2026년 5월 27일 Kubernetes 추론 워크로드용 체크포인트·복구 방식인 NVIDIA Dynamo Snapshot을 공개함
- 단일 GPU vLLM v0.20.0 워크로드 기준으로 콜드 스타트가 수 분 걸리는 문제를 겨냥하며, 대형 모델에서는 시작 시간을 최대 21배 줄였다고 설명함
- GPU 측 상태는 `cuda-checkpoint`로 CPU 메모리에 덤프하고, CPU 측 프로세스·스레드·파일 디스크립터 상태는 CRIU로 저장해 전체 추론 워커 상태를 직렬화함
- Kubernetes에서는 Helm으로 배포하는 privileged DaemonSet `snapshot-agent`가 노드별로 체크포인트와 복구를 수행하며, `runc` 수정 없이 컨테이너 단위 복구를 처리함
- 복구 시에는 경량 placeholder pod를 띄운 뒤 overlay 파일시스템과 CRIU·CUDA 체크포인트를 되살리는 방식이며, 노드별 독립 동작으로 클러스터 내 병렬 복구가 가능함
- KV 캐시 언맵으로 체크포인트 크기를 약 190 GiB에서 약 6 GiB로 줄였고, memfd 병렬 복구·리눅스 AIO·GPU Memory Service로 복구 경로를 추가 최적화함
- 현재는 단일 GPU 워크로드 중심의 초기 프로토타입이며, NVIDIA는 멀티 GPU·멀티 노드 지원과 TensorRT-LLM 통합을 후속 단계로 제시함
조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.
#AlibabaCloud #Mistral #NVIDIA