본문 바로가기
반응형

Bigdata77

'GPT-5'를 코딩에 효과적으로 활용하기 위한 6가지 프롬프트 입력법을 공개 오픈AI는 개발자를 위한 '코딩 에이전트'로 설계된 'GPT-5'를 코딩에 효과적으로 활용하기 위한 6가지 프롬프트 입력법을 공개하였다. 오픈AI는 이전 모델과는 다른 방식으로 접근할 것을 권장하며, 모델이 능동적으로 업무를 처리하도록 만들면서도 불필요한 작업까지 처리하지 않도록 균형을 맞추는 것이 핵심이라고 설명한다. GPT-5가 다양한 도메인에서 뛰어난 성능을 발휘할 것으로 기대하지만, 모델 학습 및 실제 작업 적용 경험을 바탕으로 모델 출력의 품질을 극대화하기 위한 프롬프트 팁을 다룬다고 밝혔다. 특히 개발자를 염두에 두고 GPT-5를 개발하였으며, 에이전트 역할에 초점을 맞추었다고 전한다. 원본은 아래에서 확인이 가능하다.https://community.openai.com/t/prompting-t.. 2025. 8. 25.
LLM Benchmark 평가 방법 정리 📊 LLM Benchmark 정리표 (최신 기준)카테고리 Benchmark 이름 설명 평가 항목🧾 지시 이행 평가IFEval25종의 검증 가능한 지시문 기반 평가. 예: "400자 이상", "특정 키워드 포함"형식 준수, 제약 조건 이행, 구조화된 출력🧠 고난도 추론 평가BBH (BIG-Bench Hard)BIG-Bench 중 인간보다 성능 낮았던 23개 고난도 태스크고차원 추론, CoT 효과 분석🧮 수학 평가MATH (Minerva 버전)고등학교~대학 수준 수학 문제. 4-shot, 생성형 평가수학적 사고, 단계적 추론📚 과학 지식 평가GPQA (Graduate-Level Physics QA)대학원 수준의 물리학 문제. 0-shot, 선택형고급 물리 지식, 논리적 추론🧠 멀티스킬 평가MUSR.. 2025. 8. 18.
GPT-5 with github copilot 괜찮은가? 성능 및 반응 요약 GPT-5의 출시 이후 사람들의 반응은 극명하게 엇갈리고 있으며, 기술적 진보와 사용자 경험 사이의 긴장이 뚜렷하게 드러나고 있다.아래에 다양한 관점에서 정리해 보면 다음과 같다.필자도 실제 사용해보니, 윈드서프나 커서와 같이 문서 업데이틑 물론 테스트용 파일도 척척 생생해서 실행까지 해주는 부분이, 전반적인 코드 생성을 해내는 능력이 강해진것으로 보인다.어떻게 보면, 윈드서프나 커서에게 밀리던 1세대형태의 채팅을 벋어나 적극적으로 파일 생성과 코드 생성에 참여된 느낌이다.기존에 그만큼 강력해졌다고 생각이들고, 주요 강점은 아래와 같다.주요 포인트GPT-5의 정의와 구조트랜스포머 기반의 최신 모델로, 인간 수준의 텍스트 생성 능력을 갖춤.파라미터 수와 학습 데이터가 GPT-4보다 훨씬 많음.기억 기능세션.. 2025. 8. 12.
Huggingface - pipelines 설치 및 사용 Hugging Face 에서 제공하는 pipelines는 간편하게 AI를 무료로 이용할 수 있는 기능을 제공한다. 고수준의 라이브러리 단 몇줄로 AI를 활용할 수 있다. 여기에서는 어떻게 이용할 수 있는지 설치 부터 대표적인 이용 방법을 정리해본다.1. 라이브러리 설치!pip install -q --upgrade torch==2.5.1+cu124 torchvision==0.20.1+cu124 torchaudio==2.5.1+cu124 --index-url https://download.pytorch.org/whl/cu124!pip install -q --upgrade transformers==4.48.3 datasets==3.2.0 diffusers최신 버전의 PyTorch 및 관련 라이브러리 설치 (c.. 2025. 8. 6.
AI/LLM 모델 성능을 비교 평가하는 주요 리더보드 정리 다음은 AI/LLM 모델 성능을 비교하고 평가할 수 있는 주요 리더보드 사이트들이다.각 사이트는 다양한 벤치마크, 가격, 속도, 컨텍스트 길이 등을 기준으로 모델을 분석한다.🏆 1. LLM Stats특징: 실시간 업데이트되는 리더보드로, 모델별 성능, 가격, 컨텍스트 길이, 멀티모달 지원 여부 등을 비교 가능.벤치마크: GPQA, MMLU, HumanEval, DROP, SWE-Bench, MMMU 등.모델 예시: GPT-4.5, Claude 3.7, Gemini 2.5, Llama 4, DeepSeek 등.추가 기능: Playground에서 모델 직접 테스트 가능, API 가격 비교도 제공.📊 2. Artificial Analysis특징: 100개 이상의 모델을 다양한 기준(지능, 속도, 가격, 컨.. 2025. 8. 6.
WebDancer? - Aliexpress 에서 진행하는 자율적인 정보 탐색 에이전트 논문 요약 원본 논문 WebDancer: 자율 웹 에이전트의 여정 으로 지금 나온 OpenSource들의 모델을 뛰어넘는 성능을 자랑한다.WebDancer 논문을 보면, 최근 LLM에 많이 들어가고 있는 ReAct, 답변전에 먼저 추론(생각)을 하고 이를 통해 행동하고, 관찰하고 다시 다음을 생각하도록 하는 스스로 보다 강력한 학습을 할 수 있도록 구성한 강력한 모델이다.여기에 다시 효과적인 를추론 능력 향상도 큰 부분은 E2HQA (Easy-to-Hard QA), CRAWLQA (크롤링 기반 QA) 를 이용해서 훈련을 아래는 논문 내용을 요약해본 오디오이다. 한번 들어보면 논문이해에 큰 도움이 될 것 이다.1. 주요 목표 및 배경본 연구 "WebDancer: Towards Autonomous Informati.. 2025. 8. 1.
반응형