Copilot 메모리 제어, CUDA 13.3, TRL 동기화 #30
오늘의 레터
GitHub, Copilot Memory 제어 범위 확대
- GitHub가 2026년 5월 26일 Copilot Memory의 삭제 제어, 저장 범위 표시, Copilot CLI 제어 기능 추가를 공개함
- Copilot Memory는 퍼블릭 프리뷰 상태이며, 유료 GitHub Copilot 플랜 전체에서 제공됨
- 메모리 삭제 요청 시 삭제 위치를 안내하고, 투표 기능이 있는 항목은 해당 메모리를 down-vote 처리함
- 저장 시점의 권한 프롬프트에 사용자 단위 선호 정보인지, 저장소 단위 사실인지 범위를 명시함
- 저장소 관리자는 Repository Settings의 Copilot 기능 설정에서 저장소 단위 Copilot Memory를 비활성화 가능함
- 저장소 단위 Memory를 끄면 새 사실의 저장·읽기는 중단되지만, 기존에 저장된 사실은 자동 삭제되지 않음
- Copilot CLI에 `/memory on`, `/memory off`, `/memory show` 명령이 추가됐고, 선택 상태는 세션 간 유지됨
- 사용자 단위 메모리는 개인 Copilot Memory 설정에서 검토·삭제 가능하며, 저장소 단위 사실은 저장소 소유자가 별도 관리 가능함
원문: github.blog
NVIDIA, CUDA 13.3에 CompileIQ 추가
- NVIDIA가 2026년 5월 26일 공개한 CUDA 13.3에 AI 기반 컴파일러 자동 튜닝 프레임워크 CompileIQ를 포함함
- CompileIQ는 진화 알고리즘과 유전 알고리즘으로 워크로드별 GPU 컴파일 내부 파라미터를 탐색해 커널별 최적 설정을 찾는 구조임
- 대상 파라미터는 레지스터 할당, 명령 스케줄링, 루프 변환 등 공개 플래그로 직접 제어되지 않는 컴파일러 내부 휴리스틱임
- 결과물은 ACF(Advanced Controls File)로 생성되며, `--apply-controls` 플래그로 PTXAS 또는 NVCC에 적용해 특정 커널용 바이너리를 빌드 가능함
- Python 패키지로 `pip install compileiq` 방식 설치를 제공하며, PTXAS와 NVCC용 검색 공간은 API로 자동 내려받는 방식임
- 개발자는 후보 설정으로 커널을 컴파일·벤치마크해 점수를 반환하는 objective 함수를 정의하고, pool size·generation·objective 수를 설정해 탐색을 실행하면 됨
- NVIDIA는 LLM 추론처럼 GEMM 계열과 어텐션 계열 커널이 전체 연산의 90% 이상을 차지하는 구간에서, 작은 커널 성능 개선도 전체 처리량에 큰 영향을 줄 수 있다고 설명함
Hugging Face, TRL 델타 가중치 동기화 공개
- Hugging Face가 2026년 5월 27일 TRL용 델타 가중치 동기화 방식을 공개함
- 비동기 RL 학습에서 매 스텝 전체 모델을 추론 엔진으로 보내는 대신, 변경된 가중치만 sparse `safetensors` 파일로 인코딩해 전송함
- 연속된 RL 옵티마이저 스텝 사이에서 bf16 가중치의 약 99%가 동일하며, 최악의 경우도 98% 이상 동일하다고 설명함
- Qwen3-0.6B 기준 스텝당 전송량이 1.2GB에서 20~35MB로 감소했다고 제시함
- 변경분은 Hugging Face Bucket에 업로드되고, vLLM이 이를 내려받아 반영하는 구조이며, 트레이너 측 Boolean mask와 vLLM 측 30줄 확장으로 연결됨
- 트레이너, vLLM, Wordle 환경을 각각 다른 머신·Space에 두고 단일 Hub bucket으로 연결한 분산 학습 사례도 함께 공개함
- 별도 공유 클러스터, RDMA, VPN 없이 가중치 동기화가 가능해져 대규모 비동기 RL 학습의 대역폭 비용과 유휴 시간이 줄어드는 방향을 제시함
원문: huggingface.co
조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.
#GitHub #HuggingFace #NVIDIA