기업용 AI 배포와 정렬 훈련, 개발도구 점검 #16

기업용 AI 배포와 정렬 훈련, 개발도구 점검 #16

오늘의 레터

  1. OpenAI, 기업용 배포 법인 신설
  2. curl, Mythos 분석에서 취약점 1건 확인
  3. Anthropic, Claude 정렬 훈련 일반화 기법 공개

OpenAI, 기업용 배포 법인 신설

  • OpenAI가 기업의 AI 시스템 구축·운영을 지원하는 별도 조직 OpenAI Deployment Company를 출범함
  • 출범과 함께 응용 AI 컨설팅·엔지니어링 회사 Tomoro 인수에 합의함
  • Tomoro 합류로 약 150명의 Forward Deployed Engineers와 Deployment Specialists를 초기부터 확보함
  • 이 조직은 고객사 내부에서 데이터·도구·통제 체계·업무 프로세스를 연결한 운영용 AI 시스템 구축을 맡음
  • OpenAI는 이 조직을 독립 사업 단위로 운영하면서도 연구·제품·사내 배포팀과 연동하는 구조로 설계함
  • 파트너십에는 글로벌 투자사·컨설팅사·시스템 통합사 19곳이 참여하며 TPG가 주도함
  • Advent·Bain Capital·Brookfield가 공동 창립 파트너로 참여하고 Bain & Company·Capgemini·McKinsey도 포함됨
  • OpenAI가 지배 지분과 통제권을 보유하며 초기 투자금으로 40억 달러 이상을 투입할 계획임
  • OpenAI는 자사 제품·API를 도입한 기업이 100만 곳을 넘었다고 밝히며, 다음 단계는 실제 업무 흐름에 AI를 배치하는 것이라고 설명함

원문: openai.com
참고: qz.com


curl, Mythos 분석에서 취약점 1건 확인

curl, Mythos 분석에서 취약점 1건 확인
  • curl 메인테이너 Daniel Stenberg가 5월 11일 Mythos의 curl 코드 분석 결과를 공개함
  • 초기 보고서는 보안 취약점 5건을 제시했지만, curl 측 검토 후 실제 보안 이슈는 1건으로 좁혀짐
  • 분석 대상은 curl git master의 src/와 lib/ 하위 약 17만8000줄
  • HTTP/1, TLS, URL parsing core 같은 hot path에서는 문제가 발견되지 않았다고 설명함
  • AISLE, Zeropath, OpenAI Codex Security 등 AI 기반 분석이 최근 8~10개월 동안 200~300건의 bugfix merge를 촉발했다고 밝힘
  • curl은 공백 제외 17만6000줄 C 코드, 누적 188개 CVE, 573명의 현행 코드 기여자를 가진 프로젝트라고 소개됨

원문: daniel.haxx.se


Anthropic, Claude 정렬 훈련 일반화 기법 공개

  • Anthropic이 5월 8일 Alignment Science Blog에서 Claude 정렬 개선 연구 "Teaching Claude Why"를 공개함
  • Claude 4 계열에서 드러난 agentic misalignment 문제 이후, Claude Opus 4.5 시점까지 안전성 훈련 데이터·RL 환경·보상 체계를 크게 업데이트했다고 설명함
  • 윤리적 딜레마를 다루는 소규모 대화 데이터만 추가해도 agentic misalignment 발생률이 0으로 감소했다고 밝힘
  • Claude 헌법을 설명하는 문서와 모범적으로 행동하는 AI 허구 서사를 SDF로 학습시키면, 평가 분포 밖에서도 정렬 개선 효과가 유지됐다고 제시함
  • 기존 harmlessness RL 환경에 실제로 필요하지 않은 도구 정의와 다양한 시스템 프롬프트를 넣는 방식도 misalignment 감소에 기여했다고 설명함
  • 평가 시나리오와 유사한 사례만 직접 학습하면 측정 수치는 개선되지만, held-out 자동 감사 지표에서는 일반화가 약해 탐지력을 떨어뜨릴 수 있다고 경고함
  • 실험은 Claude Sonnet 4, Claude Haiku 4.5, 그리고 해당 계열의 기반 모델 추가 파인튜닝 중심으로 진행됐으며, 이 모델들은 이전 agentic misalignment 블로그 공개 전 사전학습된 상태라고 명시함
  • Anthropic은 정렬된 행동 예시를 보여주는 것만으로는 부족했고, 왜 특정 행동이 더 바람직한지 설명하게 하는 훈련이 더 강한 효과를 보였다고 정리함

원문: alignment.anthropic.com
참고: anthropic.com · letsdatascience.com · eu.36kr.com


조코레터는 개발자와 만드는 사람을 위해 AI, 소프트웨어, 제품 흐름을 한국어로 정리합니다.

#Anthropic #OpenAI #curl

조코레터 구독하기

Read more