AI/LLM 모델 성능을 비교 평가하는 주요 리더보드 정리
다음은 AI/LLM 모델 성능을 비교하고 평가할 수 있는 주요 리더보드 사이트들이다.각 사이트는 다양한 벤치마크, 가격, 속도, 컨텍스트 길이 등을 기준으로 모델을 분석한다.🏆 1. LLM Stats특징: 실시간 업데이트되는 리더보드로, 모델별 성능, 가격, 컨텍스트 길이, 멀티모달 지원 여부 등을 비교 가능.벤치마크: GPQA, MMLU, HumanEval, DROP, SWE-Bench, MMMU 등.모델 예시: GPT-4.5, Claude 3.7, Gemini 2.5, Llama 4, DeepSeek 등.추가 기능: Playground에서 모델 직접 테스트 가능, API 가격 비교도 제공.📊 2. Artificial Analysis특징: 100개 이상의 모델을 다양한 기준(지능, 속도, 가격, 컨..
2025. 8. 6.