OpenAI에서 2025년 5월 12일 HealthBench라는 벤치마크를 공개했습니다. AI 성능을 평가할 때에도 일관적인 평가가 힘들기 때문에 많은 벤치마크 종류들이 있는데, 의료 분야에서 사용될 수 있는 첫 번째 벤치마크가 출시된 것입니다.
평가는 모델이 의료 환경에서 어떻게 수행되는지 이해하는 데 필수적입니다. 학계와 산업계 전반에 걸쳐 이미 상당한 노력이 이루어졌지만, 기존의 많은 평가는 현실적인 시나리오를 반영하지 못하거나, 전문가의 의학적 소견에 대한 엄격한 검증이 부족하거나, 최첨단 모델이 개선될 여지를 남기지 않는 경우가 많습니다.
Evaluations are essential to understanding how models perform in health settings. Significant efforts have already been made across academia and industry, yet many existing evaluations do no...
원문 링크 : 최초의 의료 AI 벤치마크 'HealthBench'