AI 인프라 업데이트와 개발 도구 변화 #50

TaeyoungPark

2026년 6월 17일 — 3 min read

오늘의 레터

Amazon Bedrock, Gemma 4 모델군 출시
NVIDIA, MoE 학습 가속 퓨전 커널 공개

Amazon Bedrock, Gemma 4 모델군 출시

AWS가 6월 15일 Amazon Bedrock에서 Google DeepMind의 Gemma 4 모델군 제공 시작
공개 모델은 Gemma 4 31B, Gemma 4 26B-A4B, Gemma 4 E2B 3종이며 모두 Apache 2.0 라이선스의 오픈 웨이트 계열
세 모델 모두 텍스트·이미지 입력, 내장 추론 모드, 네이티브 함수 호출 지원
Gemma 4 31B와 26B-A4B는 256K 컨텍스트 윈도우, E2B는 128K 컨텍스트 윈도우 제공
26B-A4B는 총 25.2B 파라미터 중 3.8B만 활성화되는 MoE 구조, E2B는 5.1B 총량 중 2.3B 유효 파라미터 구조
공통 인터페이스로 시스템 프롬프트, 구조화된 도구 호출, 이미지 입력, 요청 단위 추론 모드 전환 지원
접속은 Amazon Bedrock의 차세대 추론 엔진용 OpenAI 호환 API인 bedrock-mantle 엔드포인트를 통해 이뤄짐
AWS는 프롬프트와 완료 결과를 모델 학습에 사용하지 않으며 콘텐츠를 제3자와 공유하지 않는다고 설명

원문: aws.amazon.com

NVIDIA, MoE 학습 가속 퓨전 커널 공개

NVIDIA가 6월 15일 CuTe DSL로 설계한 dense·MoE용 fused MLP 커널을 공개하고, 비융합 경로 대비 커널 기준 1.3배~2배 속도 향상을 제시함
핵심 목표는 활성화 함수 처리, CPU 동기화 오버헤드, 양자화 비용으로 생기는 메모리 병목과 Tensor Core 유휴 구간 축소임
새 커널군은 GroupGemm+Quantize, GroupGemm+Activation+Quantize/Transpose, GroupGemm+dActivation+Quantize/Transpose의 3종으로 구성됨
SwiGLU·GeGLU·sReLU를 지원하며, 가중치를 입력·게이트 열 기준으로 재배치해 GEMM epilogue 안에서 GLU 연산을 처리하는 구조를 제시함
MXFP8·NVFP4 양자화와 feature scaling, tensor clamping, bias 추가를 커널 내부에서 함께 처리해 중간 텐서의 전역 메모리 왕복을 줄이는 방식임
로컬 expert 수와 토큰 수가 실행 중 결정되는 MoE 특성을 고려해 host-device 동기화 없이 동작하도록 설계했고, full-iteration CUDA Graph 적용도 가능하다고 설명함
NVIDIA는 이 최적화가 DeepSeek-V3 프리트레이닝에서는 종단 간 처리량 8%, GPT-OSS 프리트레이닝에서는 93% 개선에 기여했다고 밝힘
해당 커널은 cuDNN Frontend에서 즉시 사용 가능하며, Transformer Engine과 Megatron Core를 통해 기존 학습 스택에 연결 가능함

원문: developer.nvidia.com

조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.

#AWS #NVIDIA

조코레터 구독하기

삼성의 전사 AI 도입과 개발 인프라 업데이트 #56

오늘의 레터 1. 삼성전자, 한국 전사·글로벌 DX에 ChatGPT·Codex 배포 2. Vercel AI Gateway, Sakana Fugu Ultra 추가 3. PaddleOCR, 50개 언어 지원 PP-OCRv6 공개 4. Cloudflare Radar, 전 세계 IPv6 사용 현황 공개 삼성전자, 한국 전사·글로벌 DX에 ChatGPT·Codex 배포 * 삼성전자가 AI 도입 확대의 일환으로 한국 내

AI 에이전트 실험과 저정밀 학습 업데이트 #55

오늘의 레터 1. Anthropic, Project Fetch 2단계 결과 공개 2. NVIDIA, 트랜스포머 저정밀 학습 최적화 가이드 공개 Anthropic, Project Fetch 2단계 결과 공개 * Anthropic이 6월 18일 공개한 Project Fetch 2단계에서 Claude Opus 4.7이 로보독 과제 일부를 인간 도움 없이 수행함 * 2025년 8월 1차 실험에서는 비전문가 직원 팀이 Claude Opus

AI 에이전트 운영과 개발 도구 업데이트 #54

오늘의 레터 1. GitHub, Copilot 사용자별 AI 크레딧 지표 추가 2. AWS, Bedrock AgentCore 웹 검색 정식 출시 GitHub, Copilot 사용자별 AI 크레딧 지표 추가 * GitHub가 6월 19일 Copilot usage metrics API에 사용자별 일일 AI 크레딧 사용량 지표를 추가함 * 새 `ai_credits_used` 필드는 사용자 단위 총 AI 크레딧 소비량을

AI 에이전트 배포와 개발 도구 운영 변화 #53

오늘의 레터 1. Cloudflare, AI 에이전트용 임시 계정 공개 2. GitHub, Opus 4.6 Fast 지원 종료 예고 3. OpenAI, ChatGPT Enterprise 사용량 분석·지출 통제 개편 Cloudflare, AI 에이전트용 임시 계정 공개 * Cloudflare가 AI 에이전트를 위한 임시 계정을 2026년 6월 19일 공개, 가입 없이 Worker 배포 가능해짐 * 에이전트는 `wrangler