Copilot 메모리 제어, CUDA 13.3, TRL 동기화 #30

Copilot 메모리 제어, CUDA 13.3, TRL 동기화 #30

오늘의 레터

  1. GitHub, Copilot Memory 제어 범위 확대
  2. NVIDIA, CUDA 13.3에 CompileIQ 추가
  3. Hugging Face, TRL 델타 가중치 동기화 공개

GitHub, Copilot Memory 제어 범위 확대

  • GitHub가 2026년 5월 26일 Copilot Memory의 삭제 제어, 저장 범위 표시, Copilot CLI 제어 기능 추가를 공개함
  • Copilot Memory는 퍼블릭 프리뷰 상태이며, 유료 GitHub Copilot 플랜 전체에서 제공됨
  • 메모리 삭제 요청 시 삭제 위치를 안내하고, 투표 기능이 있는 항목은 해당 메모리를 down-vote 처리함
  • 저장 시점의 권한 프롬프트에 사용자 단위 선호 정보인지, 저장소 단위 사실인지 범위를 명시함
  • 저장소 관리자는 Repository Settings의 Copilot 기능 설정에서 저장소 단위 Copilot Memory를 비활성화 가능함
  • 저장소 단위 Memory를 끄면 새 사실의 저장·읽기는 중단되지만, 기존에 저장된 사실은 자동 삭제되지 않음
  • Copilot CLI에 `/memory on`, `/memory off`, `/memory show` 명령이 추가됐고, 선택 상태는 세션 간 유지됨
  • 사용자 단위 메모리는 개인 Copilot Memory 설정에서 검토·삭제 가능하며, 저장소 단위 사실은 저장소 소유자가 별도 관리 가능함

원문: github.blog


NVIDIA, CUDA 13.3에 CompileIQ 추가

NVIDIA, CUDA 13.3에 CompileIQ 추가
  • NVIDIA가 2026년 5월 26일 공개한 CUDA 13.3에 AI 기반 컴파일러 자동 튜닝 프레임워크 CompileIQ를 포함함
  • CompileIQ는 진화 알고리즘과 유전 알고리즘으로 워크로드별 GPU 컴파일 내부 파라미터를 탐색해 커널별 최적 설정을 찾는 구조임
  • 대상 파라미터는 레지스터 할당, 명령 스케줄링, 루프 변환 등 공개 플래그로 직접 제어되지 않는 컴파일러 내부 휴리스틱임
  • 결과물은 ACF(Advanced Controls File)로 생성되며, `--apply-controls` 플래그로 PTXAS 또는 NVCC에 적용해 특정 커널용 바이너리를 빌드 가능함
  • Python 패키지로 `pip install compileiq` 방식 설치를 제공하며, PTXAS와 NVCC용 검색 공간은 API로 자동 내려받는 방식임
  • 개발자는 후보 설정으로 커널을 컴파일·벤치마크해 점수를 반환하는 objective 함수를 정의하고, pool size·generation·objective 수를 설정해 탐색을 실행하면 됨
  • NVIDIA는 LLM 추론처럼 GEMM 계열과 어텐션 계열 커널이 전체 연산의 90% 이상을 차지하는 구간에서, 작은 커널 성능 개선도 전체 처리량에 큰 영향을 줄 수 있다고 설명함

원문: developer.nvidia.com


Hugging Face, TRL 델타 가중치 동기화 공개

  • Hugging Face가 2026년 5월 27일 TRL용 델타 가중치 동기화 방식을 공개함
  • 비동기 RL 학습에서 매 스텝 전체 모델을 추론 엔진으로 보내는 대신, 변경된 가중치만 sparse `safetensors` 파일로 인코딩해 전송함
  • 연속된 RL 옵티마이저 스텝 사이에서 bf16 가중치의 약 99%가 동일하며, 최악의 경우도 98% 이상 동일하다고 설명함
  • Qwen3-0.6B 기준 스텝당 전송량이 1.2GB에서 20~35MB로 감소했다고 제시함
  • 변경분은 Hugging Face Bucket에 업로드되고, vLLM이 이를 내려받아 반영하는 구조이며, 트레이너 측 Boolean mask와 vLLM 측 30줄 확장으로 연결됨
  • 트레이너, vLLM, Wordle 환경을 각각 다른 머신·Space에 두고 단일 Hub bucket으로 연결한 분산 학습 사례도 함께 공개함
  • 별도 공유 클러스터, RDMA, VPN 없이 가중치 동기화가 가능해져 대규모 비동기 RL 학습의 대역폭 비용과 유휴 시간이 줄어드는 방향을 제시함

원문: huggingface.co


조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.

#GitHub #HuggingFace #NVIDIA

조코레터 구독하기

Read more