반응형 Bigdata73 Gemma 토크나이저 특징 - 한국어 처리 효율 Google의 Gemini 모델과 호환되는 Gemma 토크나이저는 공개된 토크나이저 중 하나로, 이를 통해 비공개 Gemini 토크나이저의 일부 구조를 유추할 수 있다. Tokenizer Github 링크 아래는 Gemma 토크나이저의 주요 특징을 나열 하였다.1. SentencePiece 기반- Gemma 토크나이저는 SentencePiece를 기반으로 구현되어 있다.- SentencePiece는 언어에 독립적인 토크나이저로, 사전 토큰 분할(pre-tokenization)을 하지 않고 바로 텍스트를 처리한다.SentencePiece는 Google에서 개발한 서브워드 기반 토크나이저 불규칙한 언어 변화에 강해서, 한국어를 포함한 멀티모달 모델에서 널리 사용되며, Gemini/Gemma에서도 활용된다.2.. 2025. 10. 21. Google Embedding Gemma: 최고의 임베딩 모델 빠르게 진화하는 AI 세계에서는 인터넷에 끊임없이 연결되지 않고도 로컬에서 정보를 처리할 수 있는 능력이 점점 더 중요해지고 있다.Google의 새로운 EmbeddingGemma는 이러한 방향으로 나아가는 중요한 흐름으로 로컬/오프라인 오픈소스 AI 임베딩 모델을 제공한다.1. EmbeddingGemma란 무엇인가?EmbeddingGemma는 Google의 Gemini 아키텍처 기반으로 개발된 오픈소스 모델로 기본적으로 텍스트에 대한 고품질 수치적 표현(임베딩)을 제공하는데 목적이 있다.임베딩(Embedding) 생성에 특화되어 있으며, 검색, 추천, 의미 기반 매칭 을 위한 임베딩 작업에 활용이 가능하다.모델 크기: 300M의 파라메터로 메모리 200MB 정도를 사용하는 소형 모델로 온디바이스 특히 .. 2025. 9. 10. 'GPT-5'를 코딩에 효과적으로 활용하기 위한 6가지 프롬프트 입력법을 공개 오픈AI는 개발자를 위한 '코딩 에이전트'로 설계된 'GPT-5'를 코딩에 효과적으로 활용하기 위한 6가지 프롬프트 입력법을 공개하였다. 오픈AI는 이전 모델과는 다른 방식으로 접근할 것을 권장하며, 모델이 능동적으로 업무를 처리하도록 만들면서도 불필요한 작업까지 처리하지 않도록 균형을 맞추는 것이 핵심이라고 설명한다. GPT-5가 다양한 도메인에서 뛰어난 성능을 발휘할 것으로 기대하지만, 모델 학습 및 실제 작업 적용 경험을 바탕으로 모델 출력의 품질을 극대화하기 위한 프롬프트 팁을 다룬다고 밝혔다. 특히 개발자를 염두에 두고 GPT-5를 개발하였으며, 에이전트 역할에 초점을 맞추었다고 전한다. 원본은 아래에서 확인이 가능하다.https://community.openai.com/t/prompting-t.. 2025. 8. 25. LLM Benchmark 평가 방법 정리 📊 LLM Benchmark 정리표 (최신 기준)카테고리 Benchmark 이름 설명 평가 항목🧾 지시 이행 평가IFEval25종의 검증 가능한 지시문 기반 평가. 예: "400자 이상", "특정 키워드 포함"형식 준수, 제약 조건 이행, 구조화된 출력🧠 고난도 추론 평가BBH (BIG-Bench Hard)BIG-Bench 중 인간보다 성능 낮았던 23개 고난도 태스크고차원 추론, CoT 효과 분석🧮 수학 평가MATH (Minerva 버전)고등학교~대학 수준 수학 문제. 4-shot, 생성형 평가수학적 사고, 단계적 추론📚 과학 지식 평가GPQA (Graduate-Level Physics QA)대학원 수준의 물리학 문제. 0-shot, 선택형고급 물리 지식, 논리적 추론🧠 멀티스킬 평가MUSR.. 2025. 8. 18. GPT-5 with github copilot 괜찮은가? 성능 및 반응 요약 GPT-5의 출시 이후 사람들의 반응은 극명하게 엇갈리고 있으며, 기술적 진보와 사용자 경험 사이의 긴장이 뚜렷하게 드러나고 있다.아래에 다양한 관점에서 정리해 보면 다음과 같다.필자도 실제 사용해보니, 윈드서프나 커서와 같이 문서 업데이틑 물론 테스트용 파일도 척척 생생해서 실행까지 해주는 부분이, 전반적인 코드 생성을 해내는 능력이 강해진것으로 보인다.어떻게 보면, 윈드서프나 커서에게 밀리던 1세대형태의 채팅을 벋어나 적극적으로 파일 생성과 코드 생성에 참여된 느낌이다.기존에 그만큼 강력해졌다고 생각이들고, 주요 강점은 아래와 같다.주요 포인트GPT-5의 정의와 구조트랜스포머 기반의 최신 모델로, 인간 수준의 텍스트 생성 능력을 갖춤.파라미터 수와 학습 데이터가 GPT-4보다 훨씬 많음.기억 기능세션.. 2025. 8. 12. Huggingface - pipelines 설치 및 사용 Hugging Face 에서 제공하는 pipelines는 간편하게 AI를 무료로 이용할 수 있는 기능을 제공한다. 고수준의 라이브러리 단 몇줄로 AI를 활용할 수 있다. 여기에서는 어떻게 이용할 수 있는지 설치 부터 대표적인 이용 방법을 정리해본다.1. 라이브러리 설치!pip install -q --upgrade torch==2.5.1+cu124 torchvision==0.20.1+cu124 torchaudio==2.5.1+cu124 --index-url https://download.pytorch.org/whl/cu124!pip install -q --upgrade transformers==4.48.3 datasets==3.2.0 diffusers최신 버전의 PyTorch 및 관련 라이브러리 설치 (c.. 2025. 8. 6. 이전 1 2 3 4 5 ··· 13 다음 반응형