에이전트 ai 종류

에이전트 평가 벤치마크 변천사 — 무엇을 측정해야 하는가

에이전트 평가 벤치마크 변천사 — 무엇을 측정해야 하는가DAY 29 · 트렌드
· 매거진 · 트렌드 · DAY 29
📈 트렌드⏱ 4분 읽기
왜 이 글이 흥미로운가

"이 모델 좋아요" 광고를 안 믿게 만드는 방법: 벤치마크 읽기.

에이전트 비교 벤치마크 종류·신뢰도·한계 정리.

01 SWE-Bench — 가장 인기, 가장 게임된

실제 깃허브 이슈 해결률. 프론티어 모델 70-80% 도달.

02 AgentBench — 종합 평가

단순 코딩이 아닌 다양한 자율 작업.

03 MMLU — 사실 지식 평가

학교 시험 같음.

점점 게임됨.

04 HumanEval — 코드 함수 작성

  • 작은 단위 코드만.
  • 한계 명확.

05 KoBEST·KMMLU — 한국어 전용

한국어 평가가 영어보다 뒤처짐. KoBEST가 그나마 표준.

06 본인이 만들어야 하는 진짜 벤치마크

회사·개인 케이스에서 "내 작업 정확도 N%". 외부 벤치마크는 참고만.

이 글이 도움 됐다면 매일 한 편씩 들어와서 읽어보세요. 120일 학습 플랜과 함께라면 본인 워크플로우가 완성됩니다.

홈에서 더 보기 →