왜 이 글이 흥미로운가
"이 모델 좋아요" 광고를 안 믿게 만드는 방법: 벤치마크 읽기.
에이전트 비교 벤치마크 종류·신뢰도·한계 정리.
01 SWE-Bench — 가장 인기, 가장 게임된
실제 깃허브 이슈 해결률. 프론티어 모델 70-80% 도달.
02 AgentBench — 종합 평가
단순 코딩이 아닌 다양한 자율 작업.
03 MMLU — 사실 지식 평가
학교 시험 같음.
점점 게임됨.
04 HumanEval — 코드 함수 작성
- 작은 단위 코드만.
- 한계 명확.
05 KoBEST·KMMLU — 한국어 전용
한국어 평가가 영어보다 뒤처짐. KoBEST가 그나마 표준.
06 본인이 만들어야 하는 진짜 벤치마크
회사·개인 케이스에서 "내 작업 정확도 N%". 외부 벤치마크는 참고만.
이 글이 도움 됐다면 매일 한 편씩 들어와서 읽어보세요. 120일 학습 플랜과 함께라면 본인 워크플로우가 완성됩니다.
