AI/LLM 모델 성능을 비교 평가하는 주요 리더보드 정리

Bigdata

AI/LLM 모델 성능을 비교 평가하는 주요 리더보드 정리

올엠 2025. 8. 6. 10:22

다음은 AI/LLM 모델 성능을 비교하고 평가할 수 있는 주요 리더보드 사이트들이다.

각 사이트는 다양한 벤치마크, 가격, 속도, 컨텍스트 길이 등을 기준으로 모델을 분석한다.

출처: AI 생성

🏆 1. LLM Stats

특징: 실시간 업데이트되는 리더보드로, 모델별 성능, 가격, 컨텍스트 길이, 멀티모달 지원 여부 등을 비교 가능.
벤치마크: GPQA, MMLU, HumanEval, DROP, SWE-Bench, MMMU 등.
모델 예시: GPT-4.5, Claude 3.7, Gemini 2.5, Llama 4, DeepSeek 등.
추가 기능: Playground에서 모델 직접 테스트 가능, API 가격 비교도 제공.

📊 2. Artificial Analysis

특징: 100개 이상의 모델을 다양한 기준(지능, 속도, 가격, 컨텍스트 등)으로 비교.
벤치마크: Intelligence Index, Output Speed, Latency, Context Window 등.
모델 예시: Grok 4, Gemini 2.5 Flash, Claude 4 Opus, Qwen3 등.
추가 기능: API 제공자별 성능 비교도 가능.

🧪 3. Hugging Face Open LLM Leaderboard

특징: 커뮤니티 기반 오픈소스 모델 평가 플랫폼.
벤치마크:
- Chatbot Arena: 사용자 투표 기반 Elo 점수
- MT-Bench: GPT-4 기반 응답 평가
- MMLU (5-shot): 멀티태스크 정확도
기타 리더보드: MTEB (임베딩), LLM-Perf (하드웨어 성능), Big Code Models 등.

📈 4. Lambda AI Leaderboard

특징: 표준화된 벤치마크로 다양한 모델을 공정하게 비교.
벤치마크: LiveCodeBench, MMLU Pro, GPQA 등.
모델 예시: Qwen3, DeepSeek, Llama 4 등.
추가 기능: GPU 클러스터 기반 성능 테스트, 모델별 최적화 벤치마크 제공.

📈 5. LMArena

특징: 사용자 투표 기반의 Elo 점수로 모델 순위 결정.
벤치마크: Multi-turn 대화, 코드 생성, 수학 문제 해결, 창의적 글쓰기 등.
모델 예시: GPT-4o, Claude 3.5/4, Gemini 2.5, Qwen3, DeepSeek 등
추가 기능: 실시간 업데이트 및 수천 개의 사용자 피드백 반영

이 외에도 Klu.ai, DeepRanking.ai, Vellum.ai 등도 리더보드를 제공하지만, 위 4곳이 가장 신뢰도 높고 실시간 업데이트가 활발한 플랫폼이다.