Bigdata

LLM Benchmark 평가 방법 정리

올엠 2025. 8. 18. 10:54
반응형

📊 LLM Benchmark 정리표 (최신 기준)

카테고리 Benchmark 이름 설명 평가 항목
🧾 지시 이행 평가 IFEval 25종의 검증 가능한 지시문 기반 평가. 예: "400자 이상", "특정 키워드 포함" 형식 준수, 제약 조건 이행, 구조화된 출력
🧠 고난도 추론 평가 BBH (BIG-Bench Hard) BIG-Bench 중 인간보다 성능 낮았던 23개 고난도 태스크 고차원 추론, CoT 효과 분석
🧮 수학 평가 MATH (Minerva 버전) 고등학교~대학 수준 수학 문제. 4-shot, 생성형 평가 수학적 사고, 단계적 추론
📚 과학 지식 평가 GPQA (Graduate-Level Physics QA) 대학원 수준의 물리학 문제. 0-shot, 선택형 고급 물리 지식, 논리적 추론
🧠 멀티스킬 평가 MUSR (Multi-Skill Reasoning) 다양한 추론 능력을 요구하는 복합 태스크. 0-shot, 선택형 언어 이해, 논리, 수학, 과학 등
📘 향상된 지식 평가 MMLU-Pro 기존 MMLU를 확장한 고난도 버전. 선택지 4→10개로 증가 지식+추론 복합, 선택지 처리 능력

 

IFEval

IFEval(Instruction-Following Evaluation)은 대형 언어 모델(LLM)이 사용자의 지시를 얼마나 정확하게 따르는지를 평가하기 위한 벤치마크이다. 기존의 주관적 평가 방식과 달리, 객관적이고 재현 가능한 평가를 목표로 한다.

예를 들어, 검증 가능한 지시(verifiable instructions),  “400자 이상으로 작성하기”, “AI라는 키워드를 최소 3번 언급하기” 같은 구체적인 조건을 포함한 프롬프트를 사용하여 잘 수행하였는지를 평가한다.

 

google/IFEval · Datasets at Hugging Face

 

google/IFEval · Datasets at Hugging Face

🧐 Weyaxi/leaderboard-results-to-modelcard ⚡ JeffYang52415/LLMEval-Dataset-Parser ⚖️ CATIE-AQ/Guide_Evaluation_LLM

huggingface.co

 

BBH (BIG-Bench Hard)

대형 언어 모델(LLM)의 복잡한 추론 능력을 평가하기 위해 만들어진 벤치마크이다. 기존 BIG-Bench의 일부 중에서도 특히 사람보다 모델이 성능이 낮았던 23개 과제를 선별해 구성된 것이 바로 BBH라고 할 수 있다.

23개의 고난도 과제: 논리 추론, 수학, 인과 관계 판단 등 다양한 분야의 문제를 구성해서 모델의 한계를 파악하는데 적합한 평가 방법이다.

 

maveriq/bigbenchhard · Datasets at Hugging Face

 

maveriq/bigbenchhard · Datasets at Hugging Face

Disambiguation QA Given a sentence with an ambigious pronoun, either determine whether the sentence is inherently ambiguous (i.e., the thing that the pronoun refers to cannot be inferred by given information) or, if the pronoun can be implicitly deduced, s

huggingface.co

 

 

반응형