Copilot 메모리 제어, CUDA 13.3, TRL 동기화 #30

2026년 5월 28일 — 4 min read

오늘의 레터

GitHub가 2026년 5월 26일 Copilot Memory의 삭제 제어, 저장 범위 표시, Copilot CLI 제어 기능 추가를 공개함
Copilot Memory는 퍼블릭 프리뷰 상태이며, 유료 GitHub Copilot 플랜 전체에서 제공됨
메모리 삭제 요청 시 삭제 위치를 안내하고, 투표 기능이 있는 항목은 해당 메모리를 down-vote 처리함
저장 시점의 권한 프롬프트에 사용자 단위 선호 정보인지, 저장소 단위 사실인지 범위를 명시함
저장소 관리자는 Repository Settings의 Copilot 기능 설정에서 저장소 단위 Copilot Memory를 비활성화 가능함
저장소 단위 Memory를 끄면 새 사실의 저장·읽기는 중단되지만, 기존에 저장된 사실은 자동 삭제되지 않음
Copilot CLI에 `/memory on`, `/memory off`, `/memory show` 명령이 추가됐고, 선택 상태는 세션 간 유지됨
사용자 단위 메모리는 개인 Copilot Memory 설정에서 검토·삭제 가능하며, 저장소 단위 사실은 저장소 소유자가 별도 관리 가능함

원문: github.blog

NVIDIA가 2026년 5월 26일 공개한 CUDA 13.3에 AI 기반 컴파일러 자동 튜닝 프레임워크 CompileIQ를 포함함
CompileIQ는 진화 알고리즘과 유전 알고리즘으로 워크로드별 GPU 컴파일 내부 파라미터를 탐색해 커널별 최적 설정을 찾는 구조임
대상 파라미터는 레지스터 할당, 명령 스케줄링, 루프 변환 등 공개 플래그로 직접 제어되지 않는 컴파일러 내부 휴리스틱임
결과물은 ACF(Advanced Controls File)로 생성되며, `--apply-controls` 플래그로 PTXAS 또는 NVCC에 적용해 특정 커널용 바이너리를 빌드 가능함
Python 패키지로 `pip install compileiq` 방식 설치를 제공하며, PTXAS와 NVCC용 검색 공간은 API로 자동 내려받는 방식임
개발자는 후보 설정으로 커널을 컴파일·벤치마크해 점수를 반환하는 objective 함수를 정의하고, pool size·generation·objective 수를 설정해 탐색을 실행하면 됨
NVIDIA는 LLM 추론처럼 GEMM 계열과 어텐션 계열 커널이 전체 연산의 90% 이상을 차지하는 구간에서, 작은 커널 성능 개선도 전체 처리량에 큰 영향을 줄 수 있다고 설명함

원문: developer.nvidia.com

Hugging Face가 2026년 5월 27일 TRL용 델타 가중치 동기화 방식을 공개함
비동기 RL 학습에서 매 스텝 전체 모델을 추론 엔진으로 보내는 대신, 변경된 가중치만 sparse `safetensors` 파일로 인코딩해 전송함
연속된 RL 옵티마이저 스텝 사이에서 bf16 가중치의 약 99%가 동일하며, 최악의 경우도 98% 이상 동일하다고 설명함
Qwen3-0.6B 기준 스텝당 전송량이 1.2GB에서 20~35MB로 감소했다고 제시함
변경분은 Hugging Face Bucket에 업로드되고, vLLM이 이를 내려받아 반영하는 구조이며, 트레이너 측 Boolean mask와 vLLM 측 30줄 확장으로 연결됨
트레이너, vLLM, Wordle 환경을 각각 다른 머신·Space에 두고 단일 Hub bucket으로 연결한 분산 학습 사례도 함께 공개함
별도 공유 클러스터, RDMA, VPN 없이 가중치 동기화가 가능해져 대규모 비동기 RL 학습의 대역폭 비용과 유휴 시간이 줄어드는 방향을 제시함

원문: huggingface.co

조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.

#GitHub #HuggingFace #NVIDIA