안녕하세요! 'GPT'의 정점, 피크코더입니다.
AI 시스템의 개선 여부를 판단하는 것은 쉽지 않습니다. 새로운 지시나 디자인 변경이 시스템을 개선했는지 아니면 악화시켰는지를 알아내는 과정은, 때로는 매우 미묘할 수 있어요.
하지만, "평가 절차(evals)"를 통해, 실제 사용과 다양한 테스트 케이스를 포함하여 시스템 설계를 최적화할 수 있답니다. Ⅰ. 모델 출력 평가: 골드 스탠다드 답변 참조 정답이 특정한 사실 세트를 참조해야 한다는 것이 알려져 있을 때, 모델 쿼리를 사용하여 답변에 필요한 사실이 몇 개나 포함되어 있는지 셀 수 있습니다.
예를 들어, 닐 암스트롱이 달에 처음 발을 디딘 사람이라는 사실이나 그가 1969년 7월 21일에 달에 발을 디딘 날짜를 답변에서 직접 찾을 수 있는지 확인할 수 있어요. · 구체적인 예시: -시스템 메시지: 제공된 텍스트는 질문에 대한 답변이어야 합니다. 다음 정보가 답변에 직접 포함되어 있는지 확인하세요: - 닐 암스트롱이 달에 처음...
#
AI시스템개선
#
체계적변화테스트
#
정보기반AI답변
#
모델출력평가
#
골드스탠다드답변
#
AI평가절차
#
AI평가전략
#
AI정확도향상
#
AI실험
#
효율적지식검색