본문 바로가기
Bigdata

Hugging Face - model(허깅페이스 모델) download 3가지 방법

by 올엠 2024. 4. 12.
반응형

가장 쉽지만, 처음은 항상 어려운 법이다.

LLM, 딥러닝, 머신러닝을 등을 배우다 보면, 반드시 거치는 허깅페이스 다양한 모델이 존재하고 사용해 볼 수 있는, 유용한 데이터 과학 분야의 사이트라고 할 수 있다.

허깅페이스는 유명한 만큼 인터페이스도 잘 제공해주는데, Python 라이브러리를 꼽을 수 있다.

허깅페이스에서 제공하는 transformers 라이브러리는 데이터 과학을 접했다면 한번쯤을 사용해보았을 도구 이기 때문이다.(현재 transformers 전성시대에 살고 있다.)

그럼 간단히 모델을 어떻게 다운로드하는지 함께 알아보자.

이를 위해서 먼저 huggingface_hub라이브러리를 설치하도록 하자.

1. huggingface_hub 이용

python -m pip install huggingface_hub

이후 python 을 구동하고 다음과 같은 명령을 이용해서 다운로드가 가능하다.
다만 하나씩 다운로드가 가능하기 때문에 어려움이 많다.
from huggingface_hub import hf_hub_download

hf_hub_download(repo_id="TheBloke/Llama-2-7B-Chat-GGML", filename="config.json", cache_dir="./models")
가장 일반적인 방법으로는 모델을 학습 라이브러리로 로드해서 저장하는 방법이 더 효과적이다.


2. 로드한 모델 저장

보통 다운로드 하고자 하는 허깅페이스 사이트의 Use in Transformers를 누르면, 모델을 로드하는 방법을 알려주는데, 이를 통해 저장이 가능하다.



이 명령을 실행하면, 모델 다운로드를 진행한다
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("skt/kogpt2-base-v2")
model = AutoModelForCausalLM.from_pretrained("skt/kogpt2-base-v2")

위 명령을 실행하면, 모델 다운로드가 진행된다.

이후 save_pretrained 명령을 이용해서 저장하면 된다.


3. Git으로 다운로드

허깅페이스는 기본적으로 GIt 베이스로 구성되어 있다. 따라서 git clone명령으로 다운로드가 가능하다.
bagit lfs install​


Git 에 LFS 파일 시스템을 사용할 수 있도록 추가 설치후 clone 명령을 이용하면 된다.
git clone https://huggingface.co/skt/kogpt2-base-v2​


해당 디렉토리를 확인해보면 정상적으로 다운로드 된것을 알 수 있다.

이렇게 대표적인 3가지 다운로드 방법에 대해 정리해 보았다.

 

반응형