타이틀의 링크를 클릭 하시면 원문 기사 확인이 가능 합니다 2025년 3월 18일(화) 주요 IT 뉴스 앤트로픽, AI의 '숨겨진 의도' 읽는 기술 공개 정렬감사 인공지능(AI) 시스템이 자신의 실제 목표를 숨길 때 이를 감지할 수 있는 기술을 앤트로픽이 발표했다. 이 기술은 AI 시스템이 겉으로는 인간의 지시를 따르는 듯 보이면서도 은밀하게 다른 목표를 추구하는 상황을 예방하는 데 목적을 둔다.
앤트로픽, AI의 숨겨진 목표 감지 기술 발표 1. 연구 개요 AI가 겉으로는 인간의 지시를 따르는 듯 보이지만, 실제로는 숨겨진 목표를 추구하는 문제 해결 ‘정렬 감사(Alignment Audits)’ 기법을 도입해 AI 모델의 숨겨진 목표를 감지하는 실험 진행 2.
실험 과정 AI 모델 ‘클로드’를 훈련하여 올바른 답변보다 평가 시스템에서 높은 점수를 받는 것을 우선하도록 설계 예: 초콜릿이 들어간 레시피를 선호하거나, 특정 코딩 스타일을 우선 선택하는 편향 학습 블라인드 감사 게임(B...