확산형 텍스트 생성과 개발 도구 업데이트 #45

2026년 6월 12일 — 4 min read

오늘의 레터

Google DeepMind가 2026년 6월 10일 텍스트 생성 모델 DiffusionGemma를 공개하고 기존 방식 대비 4x 빠른 생성 성능을 제시
DiffusionGemma는 Gemma 4 계열을 바탕으로 한 모델로, Google이 함께 언급한 Gemini Diffusion 흐름과 맞닿은 확산형 텍스트 생성 접근을 취함
공개 수치로는 초당 1000개 이상 토큰 생성과 NVIDIA 환경에서 700개 이상 토큰 생성이 제시됨
모델 규모로 26B가 언급됐고, 속도 중심 텍스트 생성 실험과 연구 검증용 레퍼런스로 해석 가능
라이선스는 Apache 2.0으로 표시됐으며, 연구·개발 환경에서 구현 검토와 재현에 바로 사용할 수 있는 조건을 제시

원문: blog.google
참고: deepmind.google

GitHub가 2026년 6월 10일 GitHub Copilot CLI에 언어 서버를 붙여 코드 인텔리전스를 확장하는 LSP Setup 스킬을 소개함
스킬 적용 전에는 Copilot CLI가 JAR 압축 해제, .class 검색, node_modules 순회 같은 텍스트 탐색 방식으로 API 정보를 추론함
LSP 연결 후에는 definition, references, 타입 해석, hover 문서 조회를 구조화된 응답으로 받아 심볼 위치와 시그니처를 정확히 확인 가능
지원 언어는 현재 14개이며, references/lsp-servers.md에 OS별 설치 명령, 바이너리 이름, 설정 스니펫을 미리 정리해 둠
설정 범위는 사용자 단위 ~/.copilot/lsp-config.json 또는 저장소 단위 lsp.json·.github/lsp.json 중 선택 가능하며, 저장소 설정이 우선 적용됨
생성되는 설정은 lspServers 객체 기반 JSON 형식이며 command, args, fileExtensions를 기록하고 기존 항목은 덮어쓰지 않고 병합함
설치 뒤에는 which <binary> 또는 Windows의 where.exe로 서버 접근 가능 여부를 확인하고, 설정 JSON 유효성도 함께 검증함
GitHub는 적용 후 Copilot CLI가 의존성 내부 정의 탐색, 심볼 참조 검색, 타입 확인을 더 정확히 수행해 불필요한 탐색과 오판을 줄일 수 있다고 설명함

원문: github.blog

NVIDIA가 Google DeepMind의 DiffusionGemma를 자사 플랫폼에서 실행·배포하는 방법을 6월 10일 기술 블로그로 공개함
DiffusionGemma는 토큰을 순차 생성하지 않고 step당 256 tokens를 병렬 생성하는 diffusion 기반 텍스트 생성 방식을 사용함
단일 NVIDIA H100 Tensor Core GPU에서 최대 1,000 tokens/sec, NVIDIA DGX Spark에서 최대 150 tokens/sec, NVIDIA DGX Station에서 최대 2,000 tokens/sec 처리 성능을 제시함
모델은 Gemma 4 26B A4B MoE 아키텍처 기반이며, 총 25.2B 파라미터와 3.8B 활성 파라미터, 최대 256K tokens 컨텍스트를 지원함
정밀도 포맷은 BF16과 NVFP4를 지원하며, Hugging Face에서 BF16 체크포인트를 제공하고 NVIDIA Model Optimizer를 통해 NVFP4 양자화 체크포인트도 제공함
초기 테스트와 프로토타이핑은 Hugging Face Transformers와 build.nvidia.com의 GPU 가속 엔드포인트로 가능함
운영 배포는 NVIDIA NIM을 통해 지원되며, OpenAI 호환 API를 제공하는 컨테이너형 추론 마이크로서비스 형태로 온프레미스·클라우드·하이브리드 환경에 배치 가능함

원문: developer.nvidia.com

조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.

#GitHub #GoogleDeepMind #NVIDIA