OpenAI의 ‘o3’ 모델 성능 조작 논란 - 성능 검증을 위한 벤치마크 데이터를 미리 학습, 점수 부풀리기 의혹?! 최근 OpenAI는 지난해 말 아직 내부적으로 개발 진행 중인 새로운 인공지능 모델인 ‘o3’를 발표하며, 이전 모델에 비해 추론 및 문제 해결 능력에서 상당한 향상을 이루었음을 밝혔는데요.
특히 o3는 다양한 벤치마크에서 뛰어난 성과를 보였습니다. 실제 소프트웨어 contents.premium.naver.com 최근 OpenAI는 지난해 말 아직 내부적으로 개발 진행 중인 새로운 인공지능 모델인 ‘o3’를 발표하며, 이전 모델에 비해 추론 및 문제 해결 능력에서 상당한 향상을 이루었음을 밝혔는데요.
특히 o3는 다양한 벤치마크에서 뛰어난 성과를 보였습니다. 실제 소프트웨어 작업으로 구성된 SWE-Bench Verified에서는 이전 모델인 o1보다 22.8% 향상된 결과를 얻었고, 코딩 능력을 평가하는 Codeforces에서는 2727점의 ELO 점수를 기록하여 ...
#
AI데이터
#
AI벤치마크
#
AI비용
#
AI비용효율
#
DeepSeek
#
o3모델
#
OpenAI
#
미국주식
#
오픈AI