AI 인프라 업데이트와 개발 도구 변화 #50
오늘의 레터
Amazon Bedrock, Gemma 4 모델군 출시
- AWS가 6월 15일 Amazon Bedrock에서 Google DeepMind의 Gemma 4 모델군 제공 시작
- 공개 모델은 Gemma 4 31B, Gemma 4 26B-A4B, Gemma 4 E2B 3종이며 모두 Apache 2.0 라이선스의 오픈 웨이트 계열
- 세 모델 모두 텍스트·이미지 입력, 내장 추론 모드, 네이티브 함수 호출 지원
- Gemma 4 31B와 26B-A4B는 256K 컨텍스트 윈도우, E2B는 128K 컨텍스트 윈도우 제공
- 26B-A4B는 총 25.2B 파라미터 중 3.8B만 활성화되는 MoE 구조, E2B는 5.1B 총량 중 2.3B 유효 파라미터 구조
- 공통 인터페이스로 시스템 프롬프트, 구조화된 도구 호출, 이미지 입력, 요청 단위 추론 모드 전환 지원
- 접속은 Amazon Bedrock의 차세대 추론 엔진용 OpenAI 호환 API인 bedrock-mantle 엔드포인트를 통해 이뤄짐
- AWS는 프롬프트와 완료 결과를 모델 학습에 사용하지 않으며 콘텐츠를 제3자와 공유하지 않는다고 설명
원문: aws.amazon.com
NVIDIA, MoE 학습 가속 퓨전 커널 공개

- NVIDIA가 6월 15일 CuTe DSL로 설계한 dense·MoE용 fused MLP 커널을 공개하고, 비융합 경로 대비 커널 기준 1.3배~2배 속도 향상을 제시함
- 핵심 목표는 활성화 함수 처리, CPU 동기화 오버헤드, 양자화 비용으로 생기는 메모리 병목과 Tensor Core 유휴 구간 축소임
- 새 커널군은 GroupGemm+Quantize, GroupGemm+Activation+Quantize/Transpose, GroupGemm+dActivation+Quantize/Transpose의 3종으로 구성됨
- SwiGLU·GeGLU·sReLU를 지원하며, 가중치를 입력·게이트 열 기준으로 재배치해 GEMM epilogue 안에서 GLU 연산을 처리하는 구조를 제시함
- MXFP8·NVFP4 양자화와 feature scaling, tensor clamping, bias 추가를 커널 내부에서 함께 처리해 중간 텐서의 전역 메모리 왕복을 줄이는 방식임
- 로컬 expert 수와 토큰 수가 실행 중 결정되는 MoE 특성을 고려해 host-device 동기화 없이 동작하도록 설계했고, full-iteration CUDA Graph 적용도 가능하다고 설명함
- NVIDIA는 이 최적화가 DeepSeek-V3 프리트레이닝에서는 종단 간 처리량 8%, GPT-OSS 프리트레이닝에서는 93% 개선에 기여했다고 밝힘
- 해당 커널은 cuDNN Frontend에서 즉시 사용 가능하며, Transformer Engine과 Megatron Core를 통해 기존 학습 스택에 연결 가능함
조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.
#AWS #NVIDIA