AI 에이전트 통합과 추론 인프라 업데이트 #31

2026년 5월 29일 — 4 min read

오늘의 레터

Mistral AI가 2026년 5월 28일 Vibe를 공개하고, Le Chat을 업무·코딩용 단일 에이전트와 단일 라이선스로 통합함
기존 Le Chat의 대화, 설정, 플랜을 Vibe로 그대로 이전하며, 장기 실행·다단계 작업과 코딩 작업을 한 제품 안에서 처리하도록 구성됨
Work Mode는 웹·모바일에서 동작하며 이메일·캘린더 정리, 심층 리서치, 문서 초안 작성, 반복 업무 스케줄링을 지원함
업무 데이터 연결 범위는 Google Workspace, Outlook, SharePoint, Slack, GitHub 및 커스텀 커넥터까지 포함됨
Code Mode는 전용 웹 화면에서 원격 코딩 에이전트를 실행하고, VS Code용 Mistral Vibe 확장도 함께 제공함
코딩 작업은 기능 구현, 버그 수정, 리팩터링, 리뷰 가능한 풀 리퀘스트 생성까지 포함하며, 웹 앱·에디터·터미널 전반에서 이어서 수행 가능함
Vibe는 추론, 에이전트 작업, 도구 호출, 코딩에 맞춘 Mistral 플래그십 모델 기반으로 동작함
요금은 개인용 월 14.99달러, 팀용은 사용자당 월 24.99달러로 안내됨

원문: mistral.ai

Alibaba Cloud가 2026년 5월 28일 글로벌 시장용 AI 네이티브 플랫폼 `Qwen Cloud`를 출시함
Qwen Cloud는 AI 에이전트를 위한 플랫폼으로 소개됐으며, 멀티모달 모델 접근을 함께 제공함
공식 커뮤니티 설명에서 기업이 AI 에이전트를 더 쉽게 구축·배포·관리할 수 있는 풀스택 AI 생태계의 일부로 제시됨
같은 주간 공개된 글로벌 고객 대상 에이전트 AI 제품군, 모델 업그레이드, 인프라 확장 발표와 맞물린 출시 일정임
Alibaba Cloud는 5월 26일~28일 연속 발표를 통해 에이전트 중심 클라우드·모델·플랫폼 포트폴리오를 글로벌 시장으로 넓히는 흐름을 드러냄

원문: community.alibabacloud.com
참고: alibabacloud.com

NVIDIA가 2026년 5월 27일 Kubernetes 추론 워크로드용 체크포인트·복구 방식인 NVIDIA Dynamo Snapshot을 공개함
단일 GPU vLLM v0.20.0 워크로드 기준으로 콜드 스타트가 수 분 걸리는 문제를 겨냥하며, 대형 모델에서는 시작 시간을 최대 21배 줄였다고 설명함
GPU 측 상태는 `cuda-checkpoint`로 CPU 메모리에 덤프하고, CPU 측 프로세스·스레드·파일 디스크립터 상태는 CRIU로 저장해 전체 추론 워커 상태를 직렬화함
Kubernetes에서는 Helm으로 배포하는 privileged DaemonSet `snapshot-agent`가 노드별로 체크포인트와 복구를 수행하며, `runc` 수정 없이 컨테이너 단위 복구를 처리함
복구 시에는 경량 placeholder pod를 띄운 뒤 overlay 파일시스템과 CRIU·CUDA 체크포인트를 되살리는 방식이며, 노드별 독립 동작으로 클러스터 내 병렬 복구가 가능함
KV 캐시 언맵으로 체크포인트 크기를 약 190 GiB에서 약 6 GiB로 줄였고, memfd 병렬 복구·리눅스 AIO·GPU Memory Service로 복구 경로를 추가 최적화함
현재는 단일 GPU 워크로드 중심의 초기 프로토타입이며, NVIDIA는 멀티 GPU·멀티 노드 지원과 TensorRT-LLM 통합을 후속 단계로 제시함

원문: developer.nvidia.com

조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.

#AlibabaCloud #Mistral #NVIDIA