에이전트 평가 벤치마크 변천사 — 무엇을 측정해야 하는가

📈 트렌드⏱ 4분 읽기

왜 이 글이 흥미로운가

"이 모델 좋아요" 광고를 안 믿게 만드는 방법: 벤치마크 읽기.

에이전트 비교 벤치마크 종류·신뢰도·한계 정리.

01 SWE-Bench — 가장 인기, 가장 게임된

실제 깃허브 이슈 해결률. 프론티어 모델 70-80% 도달.

단순 코딩이 아닌 다양한 자율 작업.

학교 시험 같음.

점점 게임됨.

한국어 평가가 영어보다 뒤처짐. KoBEST가 그나마 표준.

회사·개인 케이스에서 "내 작업 정확도 N%". 외부 벤치마크는 참고만.

이 글이 도움 됐다면 매일 한 편씩 들어와서 읽어보세요. 120일 학습 플랜과 함께라면 본인 워크플로우가 완성됩니다.