본문 바로가기
반응형

Bigdata64

LLM Benchmark 평가 방법 정리 📊 LLM Benchmark 정리표 (최신 기준)카테고리 Benchmark 이름 설명 평가 항목🧾 지시 이행 평가IFEval25종의 검증 가능한 지시문 기반 평가. 예: "400자 이상", "특정 키워드 포함"형식 준수, 제약 조건 이행, 구조화된 출력🧠 고난도 추론 평가BBH (BIG-Bench Hard)BIG-Bench 중 인간보다 성능 낮았던 23개 고난도 태스크고차원 추론, CoT 효과 분석🧮 수학 평가MATH (Minerva 버전)고등학교~대학 수준 수학 문제. 4-shot, 생성형 평가수학적 사고, 단계적 추론📚 과학 지식 평가GPQA (Graduate-Level Physics QA)대학원 수준의 물리학 문제. 0-shot, 선택형고급 물리 지식, 논리적 추론🧠 멀티스킬 평가MUSR.. 2025. 8. 18.
GPT-5 with github copilot 괜찮은가? 성능 및 반응 요약 GPT-5의 출시 이후 사람들의 반응은 극명하게 엇갈리고 있으며, 기술적 진보와 사용자 경험 사이의 긴장이 뚜렷하게 드러나고 있다.아래에 다양한 관점에서 정리해 보면 다음과 같다.필자도 실제 사용해보니, 윈드서프나 커서와 같이 문서 업데이틑 물론 테스트용 파일도 척척 생생해서 실행까지 해주는 부분이, 전반적인 코드 생성을 해내는 능력이 강해진것으로 보인다.어떻게 보면, 윈드서프나 커서에게 밀리던 1세대형태의 채팅을 벋어나 적극적으로 파일 생성과 코드 생성에 참여된 느낌이다.기존에 그만큼 강력해졌다고 생각이들고, 주요 강점은 아래와 같다.주요 포인트GPT-5의 정의와 구조트랜스포머 기반의 최신 모델로, 인간 수준의 텍스트 생성 능력을 갖춤.파라미터 수와 학습 데이터가 GPT-4보다 훨씬 많음.기억 기능세션.. 2025. 8. 12.
Huggingface - pipelines 설치 및 사용 Hugging Face 에서 제공하는 pipelines는 간편하게 AI를 무료로 이용할 수 있는 기능을 제공한다. 고수준의 라이브러리 단 몇줄로 AI를 활용할 수 있다. 여기에서는 어떻게 이용할 수 있는지 설치 부터 대표적인 이용 방법을 정리해본다.1. 라이브러리 설치!pip install -q --upgrade torch==2.5.1+cu124 torchvision==0.20.1+cu124 torchaudio==2.5.1+cu124 --index-url https://download.pytorch.org/whl/cu124!pip install -q --upgrade transformers==4.48.3 datasets==3.2.0 diffusers최신 버전의 PyTorch 및 관련 라이브러리 설치 (c.. 2025. 8. 6.
AI/LLM 모델 성능을 비교 평가하는 주요 리더보드 정리 다음은 AI/LLM 모델 성능을 비교하고 평가할 수 있는 주요 리더보드 사이트들이다.각 사이트는 다양한 벤치마크, 가격, 속도, 컨텍스트 길이 등을 기준으로 모델을 분석한다.🏆 1. LLM Stats특징: 실시간 업데이트되는 리더보드로, 모델별 성능, 가격, 컨텍스트 길이, 멀티모달 지원 여부 등을 비교 가능.벤치마크: GPQA, MMLU, HumanEval, DROP, SWE-Bench, MMMU 등.모델 예시: GPT-4.5, Claude 3.7, Gemini 2.5, Llama 4, DeepSeek 등.추가 기능: Playground에서 모델 직접 테스트 가능, API 가격 비교도 제공.📊 2. Artificial Analysis특징: 100개 이상의 모델을 다양한 기준(지능, 속도, 가격, 컨.. 2025. 8. 6.
WebDancer? - Aliexpress 에서 진행하는 자율적인 정보 탐색 에이전트 논문 요약 원본 논문 WebDancer: 자율 웹 에이전트의 여정 으로 지금 나온 OpenSource들의 모델을 뛰어넘는 성능을 자랑한다.WebDancer 논문을 보면, 최근 LLM에 많이 들어가고 있는 ReAct, 답변전에 먼저 추론(생각)을 하고 이를 통해 행동하고, 관찰하고 다시 다음을 생각하도록 하는 스스로 보다 강력한 학습을 할 수 있도록 구성한 강력한 모델이다.여기에 다시 효과적인 를추론 능력 향상도 큰 부분은 E2HQA (Easy-to-Hard QA), CRAWLQA (크롤링 기반 QA) 를 이용해서 훈련을 아래는 논문 내용을 요약해본 오디오이다. 한번 들어보면 논문이해에 큰 도움이 될 것 이다.1. 주요 목표 및 배경본 연구 "WebDancer: Towards Autonomous Informati.. 2025. 8. 1.
데이터베이스에서 UUID 사용의 주요 문제점 UUID는 분산 시스템이나 외부 노출 식별자 등 특정 상황에서 유용하지만, 데이터베이스의 기본 키(primary key)로 무분별하게 사용하는 것은 권장되지 않습니다. 성능, 저장 공간, 관리 효율성 측면에서 충분히 고려한 후에 사용해야 하며, 대안으로는 순차적인 정수형 PK 또는 정렬 가능한 UUID를 사용하는 것이 좋습니다.이유는 다음과 같습니다.UUID 사용의 주요 문제점성능 저하UUID는 일반적으로 16바이트(128비트)로, 전통적인 정수형(4~8바이트)보다 크기가 큽니다. 이로 인해 인덱스 크기가 커지고, 디스크 I/O와 메모리 사용량이 증가해 쿼리 성능이 저하될 수 있습니다.특히 클러스터형 인덱스(primary key index)로 UUID를 사용할 경우, 값이 무작위로 생성되어 데이터가 테이.. 2025. 7. 10.
LangChain Messages 역활 LangChain Messages 역활LangChain에서 Messages는 LLM과의 상호작용을 구성하는 핵심 요소 중 하나로 프롬프트 엔지니어링에 많이 사용되는 요소라고 할 수 있다. 특히 LangChain의 ChatMessage 시스템은 다양한 역할(role)을 가진 메시지를 통해 대화의 흐름과 문맥을 명확하게 정의할 수 있는데, 각 역활은 다음과 같다. SystemMessage역할: 모델의 동작 방식을 지시하거나 설정하는 메시지예시: "당신은 친절한 영어 튜터입니다."용도: 모델의 톤, 스타일, 태도 등을 설정할 때 사용HumanMessage역할: 사용자가 모델에게 보내는 메시지예시: "이 문장을 영어로 번역해줘."AIMessage역할: 모델이 사용자에게 응답한 메시지예시: "Sure! Here'.. 2025. 6. 10.
LLM - LoRA 파인튜닝 쉽게 이해하기 전체를 바꾸지 말고, 조금만 살짝 바꿔서 똑똑하게 만들자!AI 모델은 원래 엄청나게 많은 숫자(파라미터)를 가지고 있어. 이걸 다 바꾸려면 시간이 오래 걸리고 컴퓨터 리소스도 많이 사용해야 한다.그래서 LoRA는 이를 최소한으로 수정해서 최대의 효과를 내고자 하는 방법이라고 할 수 있다. 원래 LLM의 파인튜닝 에 대한 기본 수식은h = x × W결과=입력×Wx: 입력값 (예: "고양이 사진")W: 원래 모델이 가진 숫자들 (무게라고도 해)h: 결과값 (예: "이건 고양이야!") LoRA를 쓰면 이렇게 바뀐다.h = x × W + x × A × B결과=입력×W+입력×A×BW: 원래 고양이를 잘하는 AI의 지식A, B: 강아지를 배운 작은 메모 LoRA의 장점💾 메모리 절약 전체 모델이 아닌 일부 파라미.. 2025. 6. 9.
머신러닝 - 결정 트리(DecisionTree) 알고리즘 핵심 정리 다음은 예제는 스팸 문장을 이용해서 결정트리를 만들어 낸다.import numpy as npimport matplotlib.pyplot as pltfrom matplotlib import font_manager, rcfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.tree import DecisionTreeClassifier, plot_treefrom sklearn.model_selection import train_test_split# Set up Korean font for matplotlibfont_path = "c:/Windows/Fonts/malgun.ttf" # Windows의 경우font_name = font_.. 2024. 12. 29.
반응형