AI의 성능을 측정하는 새로운 방법 - 7개월마다 2배씩 늘어나는 AI의 장기 업무 수행 능력 최근 AI의 성능이 다양한 벤치마크 테스트에서 급속도로 향상되고 있다는 소식은 흔히 접할 수 있지만, 정작 이러한 테스트 결과가 ‘실제 인간의 업무 수행 능력과 어떤 관계가 있는지’는 정확히 알기 어렵습니다. 예를 들어, 벤치마크에서 좋은 점수를 받은 AI가 실제 직장 contents.premium.naver.com 최근 AI의 성능이 다양한 벤치마크 테스트에서 급속도로 향상되고 있다는 소식은 흔히 접할 수 있지만, 정작 이러한 테스트 결과가 ‘실제 인간의 업무 수행 능력과 어떤 관계가 있는지’는 정확히 알기 어렵습니다.
예를 들어, 벤치마크에서 좋은 점수를 받은 AI가 실제 직장에서 사람이 수행하는 업무까지 효과적으로 해낼 수 있는지에 대한 질문은 여전히 남아 있습니다. “Measuring AI Ability to Complete Long Tasks”라는 논문에서는 이러한 한계를 극복하기...