본문 바로가기
반응형

Bigdata77

데이터베이스에서 UUID 사용의 주요 문제점 UUID는 분산 시스템이나 외부 노출 식별자 등 특정 상황에서 유용하지만, 데이터베이스의 기본 키(primary key)로 무분별하게 사용하는 것은 권장되지 않습니다. 성능, 저장 공간, 관리 효율성 측면에서 충분히 고려한 후에 사용해야 하며, 대안으로는 순차적인 정수형 PK 또는 정렬 가능한 UUID를 사용하는 것이 좋습니다.이유는 다음과 같습니다.UUID 사용의 주요 문제점성능 저하UUID는 일반적으로 16바이트(128비트)로, 전통적인 정수형(4~8바이트)보다 크기가 큽니다. 이로 인해 인덱스 크기가 커지고, 디스크 I/O와 메모리 사용량이 증가해 쿼리 성능이 저하될 수 있습니다.특히 클러스터형 인덱스(primary key index)로 UUID를 사용할 경우, 값이 무작위로 생성되어 데이터가 테이.. 2025. 7. 10.
LangChain Messages 역활 LangChain Messages 역활LangChain에서 Messages는 LLM과의 상호작용을 구성하는 핵심 요소 중 하나로 프롬프트 엔지니어링에 많이 사용되는 요소라고 할 수 있다. 특히 LangChain의 ChatMessage 시스템은 다양한 역할(role)을 가진 메시지를 통해 대화의 흐름과 문맥을 명확하게 정의할 수 있는데, 각 역활은 다음과 같다. SystemMessage역할: 모델의 동작 방식을 지시하거나 설정하는 메시지예시: "당신은 친절한 영어 튜터입니다."용도: 모델의 톤, 스타일, 태도 등을 설정할 때 사용HumanMessage역할: 사용자가 모델에게 보내는 메시지예시: "이 문장을 영어로 번역해줘."AIMessage역할: 모델이 사용자에게 응답한 메시지예시: "Sure! Here'.. 2025. 6. 10.
LLM - LoRA 파인튜닝 쉽게 이해하기 전체를 바꾸지 말고, 조금만 살짝 바꿔서 똑똑하게 만들자!AI 모델은 원래 엄청나게 많은 숫자(파라미터)를 가지고 있어. 이걸 다 바꾸려면 시간이 오래 걸리고 컴퓨터 리소스도 많이 사용해야 한다.그래서 LoRA는 이를 최소한으로 수정해서 최대의 효과를 내고자 하는 방법이라고 할 수 있다. 원래 LLM의 파인튜닝 에 대한 기본 수식은h = x × W결과=입력×Wx: 입력값 (예: "고양이 사진")W: 원래 모델이 가진 숫자들 (무게라고도 해)h: 결과값 (예: "이건 고양이야!") LoRA를 쓰면 이렇게 바뀐다.h = x × W + x × A × B결과=입력×W+입력×A×BW: 원래 고양이를 잘하는 AI의 지식A, B: 강아지를 배운 작은 메모 LoRA의 장점💾 메모리 절약 전체 모델이 아닌 일부 파라미.. 2025. 6. 9.
머신러닝 - 결정 트리(DecisionTree) 알고리즘 핵심 정리 다음은 예제는 스팸 문장을 이용해서 결정트리를 만들어 낸다.import numpy as npimport matplotlib.pyplot as pltfrom matplotlib import font_manager, rcfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.tree import DecisionTreeClassifier, plot_treefrom sklearn.model_selection import train_test_split# Set up Korean font for matplotlibfont_path = "c:/Windows/Fonts/malgun.ttf" # Windows의 경우font_name = font_.. 2024. 12. 29.
머신러닝 - 로지스틱 회귀 분류 알고리즘 이해, 시그모이드 함수 로지스틱 회귀는 단순하면서도 강력한 분류 알고리즘으로, 다양한 분야에서 널리 사용되고 있다.로지스틱 회귀는 종속 변수가 두 개의 범주(예: 스팸/비스팸, 질병 유무 등)로 나뉘는 이진 분류 문제에 많이 사용된다.이유는 추후 그래프를 보면 이해하겠지만, 0을 기준으로 양수와  음수로 값을 생성하는 것이 로지스틱 회귀 알고리즘의 기본 이해라고 할 수 있다. 여기에서 중요한 함수가 바로 시그모이드 함수 (Sigmoid Function) 이다.시그모이드 함수(Sigmoid Function)는 로지스틱 회귀에서 사용되는 활성화 함수로, 입력 값을 0과 1 사이의 값으로 변환합니다. 시그모이드 함수의 수식은 다음과 같다[ \sigma(x) = \frac{1}{1 + e^{-x}} ]여기서 ( e )는 자연 로그의 .. 2024. 12. 28.
머신러닝 - 데이터셋 표준화 데이터셋 표준화는 모델 훈련 전에 데이터의 스케일을 조정하는 과정이다. 그리고 머신러닝 데이터들은 많은 학습을 위해서 메모리와 연산 작업을 처리하는데, 표준화를 수행하는 주요 이유는 다음과 같다. 모델 성능 향상: 많은 머신러닝 알고리즘(특히, 릿지 회귀, 로지스틱 회귀, SVM 등)은 특성의 스케일에 민감하다.표준화를 통해 모델이 더 빠르고 안정적으로 수렴할 수 있게 된다.특성 중요도 균형: 표준화를 통해 모든 특성이 동일한 스케일을 가지게 되면, 모델이 특정 특성에 과도하게 의존하지 않도록 할 수 있다.수치적 안정성: 표준화를 통해 큰 값과 작은 값의 차이를 줄여 수치적 계산의 안정성을 높일 수 있다. 표준화는 일반적으로 각 특성의 평균을 0, 표준 편차를 1로 맞추는 방식으로 수행된다. 다음은 표준.. 2024. 12. 27.
반응형