반응형
LLM의 경우 확률 모델로 보통 GPT 계열인 경우 다음 단어를 맞추는 Autoregressive 한 모델이라고 할 수 있다.
(순차적으로 계속적으로 다음 단어의 확률을 맞추기 때문에 점진적으로 연결되는 자동 회귀 같다고 하여 Autoregressive라고 한다.)
그리고 아래 공식은 LLM의 Full fine-tuning 을 일반화한 공식이다.
x,y 는 전체 데이터를 의미하며, t는 타임으로 단어 전, 후와 같은 순서를 의미한다.
<t 는 단어별 예측을 할때 다음 단어 작은 앞쪽 단어에 대한 x, y와 예측을 하겠다는 의미로 보면 된다.
P는 학습이 된 파라메터(Parameter)로 표현했다.
log로 감싼 이유는 값의 표현의 간략화 하는 작업이라고 할 수 있다. 식의 계산 결과가 들어가며, 복잡한 단위의 계산을 간편하게 계산할 수 있다는 장점으로 보통 프로그램에서는 2의 제곱 표시를 하지 않기 때문에 계산 결과의 제곱 수라고 보면 된다.
max 역시 최대 값을 반환 해주어 가장 높은 파라메터를 반환한다고 보면 된다.
즉 정리해 보면, x, y 의 전체 데이터에서 현재 단어 위치에서 다음 단어에 가장 큰 확율의 파라메터를 찾는 내용을 공식으로 작성한 것이다.
개념 이해에 도움이 되는 영상
(3) EBS[수학] 수학I - 로그가 무엇인가요? - YouTube
반응형
'Bigdata' 카테고리의 다른 글
Transformers - 구조와 BERT, GPT 이해 (0) | 2024.08.11 |
---|---|
Python - Gaussian Error Linear Unit (GELU) 수식 - 코드 (0) | 2024.08.11 |
PEFT(Parameter Efficient Fine-Tuning) - LoRA, QLoRA (0) | 2024.08.11 |
딥러닝 - 텐서(Tensor)란? (0) | 2024.08.11 |
RNN 단점 - 기울기 소실(vanishing gradient)과 장기 의존성 문제(long-term dependency problem) (0) | 2024.08.11 |