반응형
가장 쉽지만, 처음은 항상 어려운 법이다.
LLM, 딥러닝, 머신러닝을 등을 배우다 보면, 반드시 거치는 허깅페이스 다양한 모델이 존재하고 사용해 볼 수 있는, 유용한 데이터 과학 분야의 사이트라고 할 수 있다.
허깅페이스는 유명한 만큼 인터페이스도 잘 제공해주는데, Python 라이브러리를 꼽을 수 있다.
허깅페이스에서 제공하는 transformers 라이브러리는 데이터 과학을 접했다면 한번쯤을 사용해보았을 도구 이기 때문이다.(현재 transformers 전성시대에 살고 있다.)
그럼 간단히 모델을 어떻게 다운로드하는지 함께 알아보자.
이를 위해서 먼저 huggingface_hub라이브러리를 설치하도록 하자.
1. huggingface_hub 이용
python -m pip install huggingface_hub
이후 python 을 구동하고 다음과 같은 명령을 이용해서 다운로드가 가능하다.
다만 하나씩 다운로드가 가능하기 때문에 어려움이 많다.
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="TheBloke/Llama-2-7B-Chat-GGML", filename="config.json", cache_dir="./models")
가장 일반적인 방법으로는 모델을 학습 라이브러리로 로드해서 저장하는 방법이 더 효과적이다.
이 명령을 실행하면, 모델 다운로드를 진행한다
2. 로드한 모델 저장
보통 다운로드 하고자 하는 허깅페이스 사이트의 Use in Transformers를 누르면, 모델을 로드하는 방법을 알려주는데, 이를 통해 저장이 가능하다.이 명령을 실행하면, 모델 다운로드를 진행한다
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("skt/kogpt2-base-v2")
model = AutoModelForCausalLM.from_pretrained("skt/kogpt2-base-v2")
위 명령을 실행하면, 모델 다운로드가 진행된다.
이후 save_pretrained 명령을 이용해서 저장하면 된다.
3. Git으로 다운로드
허깅페이스는 기본적으로 GIt 베이스로 구성되어 있다. 따라서 git clone명령으로 다운로드가 가능하다.bagit lfs install
Git 에 LFS 파일 시스템을 사용할 수 있도록 추가 설치후 clone 명령을 이용하면 된다.
git clone https://huggingface.co/skt/kogpt2-base-v2
해당 디렉토리를 확인해보면 정상적으로 다운로드 된것을 알 수 있다.
이렇게 대표적인 3가지 다운로드 방법에 대해 정리해 보았다.
반응형
'Bigdata' 카테고리의 다른 글
LLM.int8() - Large Language Model (LLM)의 계산 성능을 개선하기 위한 양자화 방법 (0) | 2024.06.08 |
---|---|
LLM - Llama2(라마2) 모델 개인 노트북으로 실행하기(CPU기반) (1) | 2024.06.08 |
Σ σ, ς / 시그마(sigma) - 뜻과 읽는법 (0) | 2024.06.07 |
Python - Databse BLOB 란? 사용법 (0) | 2024.03.07 |
랭체인/Langchain - 프로덕션에 사용해서는 않되는 이유, 주의점 (0) | 2024.02.17 |