본문 바로가기
반응형

Bigdata73

Nemotron 3에 대해서 다른 모델보다 다른점 NVIDIA Nemotron 3는 “모델 자체”보다도, 데이터·훈련 포맷·엔터프라이즈 파이프라인까지 묶어서 내놓는 풀스택 패키지라는 점이 다른 오픈 모델들과 가장 크게 다르다.​1. 모델 계열과 아키텍처 포지션Nemotron 3는 Nano/Ultra 등 여러 스케일로 구성된 패밀리로, 엔터프라이즈·에이전트용을 겨냥한 기본/추론/코드 특화 변형까지 포함하는 “기반 모델 군”이다.​기존 Nemotron‑3‑8B 같은 버전은 표준 디코더‑온리 Transformer지만, 최신 Nemotron 3에서는 하이브리드 Transformer‑Mamba + MoE 구조가 도입되어, 토큰당 활성 파라미터를 줄이면서 긴 컨텍스트와 추론 효율을 동시에 노린다.​같은 세대의 Llama 3.1, Qwen3, DeepSeek 등은 .. 2025. 12. 23.
ComfyUI on Windows + 8 GB GPU  메모리 제한을 극복하는 방법 8 GB VRAM은 Stable Diffusion 시리즈 모델을 실행하는 데는 충분하지만, 고해상도, 고품질 옵션을 동시에 켜면 금 금 메모리 부족(Out‑of‑Memory) 문제가 발생할 수 있다. 아래에 실제 적용 가능한 설정 순서와 추가 팁을 정리했으니, 단계별로 따라해 보세요.1️⃣ 기본 설정 – “안전하게 시작하기”설정권장값이유SamplerEuler a 또는 DPM++ 2M Karras메모리 소모가 적은 samplerResolution512 × 512 (기본) → 640 × 640 (가능하면)해상도가 클수록 VRAM 사용량 ↑Batch size1여러 이미지를 동시에 생성하면 메모리 급증PrecisionFP16 (자동)FP32 대비 절반의 메모리 사용ModelStable Diffusion 1.5 .. 2025. 12. 23.
ComfyUI on Windows + 8 GB GPU  메모리 제한을 극복하는 방법 8 GB VRAM은 Stable Diffusion 시리즈 모델을 실행하는 데는 충분하지만, 고해상도, 고품질 옵션을 동시에 켜면 금 금 메모리 부족(Out‑of‑Memory) 문제가 발생할 수 있다. 아래에 실제 적용 가능한 설정 순서와 추가 팁을 정리했으니, 단계별로 따라해 보세요.1️⃣ 기본 설정 – “안전하게 시작하기”설정권장값이유SamplerEuler a 또는 DPM++ 2M Karras메모리 소모가 적은 samplerResolution512 × 512 (기본) → 640 × 640 (가능하면)해상도가 클수록 VRAM 사용량 ↑Batch size1여러 이미지를 동시에 생성하면 메모리 급증PrecisionFP16 (자동)FP32 대비 절반의 메모리 사용ModelStable Diffusion 1.5 .. 2025. 12. 21.
AMD AI 9 관련 (370 등) CPU ROCm 지원, 설치 방법 이 과정은 Stability Matrix가 관리하는 ComfyUI 가상 환경의 기존 PyTorch를 제거하고, AMD ROCm 7.1.1을 지원하는 전용 버전으로 교체하는 작업이다.AMD ROCm 7.1.1 버전은 기존에 지원하지 않던 모델을 다수 지원해주기 시작하면서 UMPC 뿐만이 아니라, 가성비 노트북등에서도 AI 성능을 보다 끌어 올릴 수 있게 된다.📋 1. 사전 준비 (Prerequisites)설치를 시작하기 전에 다음 두 가지가 반드시 준비되어야 합니다.일반적인 Adrenalin Edition이 아닌, PyTorch 전용 프리뷰 드라이버가 필요하다.다운로드: AMD 공식 웹사이트에서 "AMD Software PyTorch on Windows Edition 7.1.1" (버전 25.20.01... 2025. 12. 19.
LLM 28B 모델 GPU 메모리 부족시(24GB이하) LLM 메모리 최적화 완벽 가이드 요즘 OpenModel들이 잘 나오고 있는데, 가정용으로 많이 사용되는 보통 30B 근접한 모델들을 사용하는 것이 효율적으로 좋은 것으로 판단된다. 이때 어떻게 메모리를 효율적으로 사용할 수 있는지를 확인해보고자 한다.여기에서 사용해볼만한 그래픽 카드는 랩탑 그래픽 카드 기준으로 다음과 같다.- Geforce RTX 4090 (24GB)- Geforce RTX 5090 (24GB)- AMD AI 300시리즈 (온보드 메모리 64GB 이상인 모델부터 32GB 이상 iGPU 사용이 가능) - 온보드 메모리 64GB(32GB) - 온보드 메모리 128GB(92GB) 가장 먼저 28B 모델이라고 가정하고 GPU 메모리 요구량을 개산해 보았다.28B 모델 GPU 메모리 요구사항 계산추론 모드 (Infer.. 2025. 12. 19.
Windows 11 - AMD Ryzen AI 시리즈를 위한 최신 HIP SDK로 Ollama 설치 방법 Windows 11에서 AMD Ryzen AI 시리즈 + 최신 HIP SDK(ROCm)를 활용해 Ollama를 설치하려면, 기본적으로 “AMD 드라이버 → HIP SDK → Ollama → ROCm 라이브러리 점검” 순서로 진행하면 된다. 아래는 Ryzen AI Max/300 시리즈, RDNA3.x 내장 GPU 기준의 일반적인 단계이다.1. 사전 준비 사항Windows 11은 22H2 이상, 최신 업데이트 적용 상태 권장.[1]AMD Ryzen AI 지원 APU(예: Ryzen AI Max/300 시리즈)와 RDNA3/3.5 계열 GPU가 장착된 시스템.로컬 디스크에 최소 수십 GB 이상 여유 공간(모델 다운로드용)과 안정적인 인터넷 연결이 필요하다.2. AMD 드라이버 및 HIP SDK 설치AMD 공식.. 2025. 12. 19.
Gemma 토크나이저 특징 - 한국어 처리 효율 Google의 Gemini 모델과 호환되는 Gemma 토크나이저는 공개된 토크나이저 중 하나로, 이를 통해 비공개 Gemini 토크나이저의 일부 구조를 유추할 수 있다. Tokenizer Github 링크 아래는 Gemma 토크나이저의 주요 특징을 나열 하였다.1. SentencePiece 기반- Gemma 토크나이저는 SentencePiece를 기반으로 구현되어 있다.- SentencePiece는 언어에 독립적인 토크나이저로, 사전 토큰 분할(pre-tokenization)을 하지 않고 바로 텍스트를 처리한다.SentencePiece는 Google에서 개발한 서브워드 기반 토크나이저 불규칙한 언어 변화에 강해서, 한국어를 포함한 멀티모달 모델에서 널리 사용되며, Gemini/Gemma에서도 활용된다.2.. 2025. 10. 21.
Google Embedding Gemma: 최고의 임베딩 모델 빠르게 진화하는 AI 세계에서는 인터넷에 끊임없이 연결되지 않고도 로컬에서 정보를 처리할 수 있는 능력이 점점 더 중요해지고 있다.Google의 새로운 EmbeddingGemma는 이러한 방향으로 나아가는 중요한 흐름으로 로컬/오프라인 오픈소스 AI 임베딩 모델을 제공한다.1. EmbeddingGemma란 무엇인가?EmbeddingGemma는 Google의 Gemini 아키텍처 기반으로 개발된 오픈소스 모델로 기본적으로 텍스트에 대한 고품질 수치적 표현(임베딩)을 제공하는데 목적이 있다.임베딩(Embedding) 생성에 특화되어 있으며, 검색, 추천, 의미 기반 매칭 을 위한 임베딩 작업에 활용이 가능하다.모델 크기: 300M의 파라메터로 메모리 200MB 정도를 사용하는 소형 모델로 온디바이스 특히 .. 2025. 9. 10.
'GPT-5'를 코딩에 효과적으로 활용하기 위한 6가지 프롬프트 입력법을 공개 오픈AI는 개발자를 위한 '코딩 에이전트'로 설계된 'GPT-5'를 코딩에 효과적으로 활용하기 위한 6가지 프롬프트 입력법을 공개하였다. 오픈AI는 이전 모델과는 다른 방식으로 접근할 것을 권장하며, 모델이 능동적으로 업무를 처리하도록 만들면서도 불필요한 작업까지 처리하지 않도록 균형을 맞추는 것이 핵심이라고 설명한다. GPT-5가 다양한 도메인에서 뛰어난 성능을 발휘할 것으로 기대하지만, 모델 학습 및 실제 작업 적용 경험을 바탕으로 모델 출력의 품질을 극대화하기 위한 프롬프트 팁을 다룬다고 밝혔다. 특히 개발자를 염두에 두고 GPT-5를 개발하였으며, 에이전트 역할에 초점을 맞추었다고 전한다. 원본은 아래에서 확인이 가능하다.https://community.openai.com/t/prompting-t.. 2025. 8. 25.
반응형