반응형
가장 쉽지만, 처음은 항상 어려운 법이다.
LLM, 딥러닝, 머신러닝을 등을 배우다 보면, 반드시 거치는 허깅페이스 다양한 모델이 존재하고 사용해 볼 수 있는, 유용한 데이터 과학 분야의 사이트라고 할 수 있다.
허깅페이스는 유명한 만큼 인터페이스도 잘 제공해주는데, Python 라이브러리를 꼽을 수 있다.
허깅페이스에서 제공하는 transformers 라이브러리는 데이터 과학을 접했다면 한번쯤을 사용해보았을 도구 이기 때문이다.(현재 transformers 전성시대에 살고 있다.)
그럼 간단히 모델을 어떻게 다운로드하는지 함께 알아보자.
이를 위해서 먼저 huggingface_hub라이브러리를 설치하도록 하자.
1. huggingface_hub 이용
python -m pip install huggingface_hub

이후 python 을 구동하고 다음과 같은 명령을 이용해서 다운로드가 가능하다.
다만 하나씩 다운로드가 가능하기 때문에 어려움이 많다.
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="TheBloke/Llama-2-7B-Chat-GGML", filename="config.json", cache_dir="./models")
가장 일반적인 방법으로는 모델을 학습 라이브러리로 로드해서 저장하는 방법이 더 효과적이다.

이 명령을 실행하면, 모델 다운로드를 진행한다
2. 로드한 모델 저장
보통 다운로드 하고자 하는 허깅페이스 사이트의 Use in Transformers를 누르면, 모델을 로드하는 방법을 알려주는데, 이를 통해 저장이 가능하다.
이 명령을 실행하면, 모델 다운로드를 진행한다
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("skt/kogpt2-base-v2")
model = AutoModelForCausalLM.from_pretrained("skt/kogpt2-base-v2")
위 명령을 실행하면, 모델 다운로드가 진행된다.
이후 save_pretrained 명령을 이용해서 저장하면 된다.

3. Git으로 다운로드
허깅페이스는 기본적으로 GIt 베이스로 구성되어 있다. 따라서 git clone명령으로 다운로드가 가능하다.bagit lfs install
Git 에 LFS 파일 시스템을 사용할 수 있도록 추가 설치후 clone 명령을 이용하면 된다.
git clone https://huggingface.co/skt/kogpt2-base-v2

해당 디렉토리를 확인해보면 정상적으로 다운로드 된것을 알 수 있다.
이렇게 대표적인 3가지 다운로드 방법에 대해 정리해 보았다.
반응형
'Bigdata' 카테고리의 다른 글
LLM.int8() - Large Language Model (LLM)의 계산 성능을 개선하기 위한 양자화 방법 (0) | 2024.06.08 |
---|---|
LLM - Llama2(라마2) 모델 개인 노트북으로 실행하기(CPU기반) (1) | 2024.06.08 |
Σ σ, ς / 시그마(sigma) - 뜻과 읽는법 (0) | 2024.06.07 |
Python - Databse BLOB 란? 사용법 (0) | 2024.03.07 |
랭체인/Langchain - 프로덕션에 사용해서는 않되는 이유, 주의점 (0) | 2024.02.17 |