본문 바로가기
반응형

Bigdata56

머신러닝 - 결정 트리(DecisionTree) 알고리즘 핵심 정리 다음은 예제는 스팸 문장을 이용해서 결정트리를 만들어 낸다.import numpy as npimport matplotlib.pyplot as pltfrom matplotlib import font_manager, rcfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.tree import DecisionTreeClassifier, plot_treefrom sklearn.model_selection import train_test_split# Set up Korean font for matplotlibfont_path = "c:/Windows/Fonts/malgun.ttf" # Windows의 경우font_name = font_.. 2024. 12. 29.
머신러닝 - 로지스틱 회귀 분류 알고리즘 이해, 시그모이드 함수 로지스틱 회귀는 단순하면서도 강력한 분류 알고리즘으로, 다양한 분야에서 널리 사용되고 있다.로지스틱 회귀는 종속 변수가 두 개의 범주(예: 스팸/비스팸, 질병 유무 등)로 나뉘는 이진 분류 문제에 많이 사용된다.이유는 추후 그래프를 보면 이해하겠지만, 0을 기준으로 양수와  음수로 값을 생성하는 것이 로지스틱 회귀 알고리즘의 기본 이해라고 할 수 있다. 여기에서 중요한 함수가 바로 시그모이드 함수 (Sigmoid Function) 이다.시그모이드 함수(Sigmoid Function)는 로지스틱 회귀에서 사용되는 활성화 함수로, 입력 값을 0과 1 사이의 값으로 변환합니다. 시그모이드 함수의 수식은 다음과 같다[ \sigma(x) = \frac{1}{1 + e^{-x}} ]여기서 ( e )는 자연 로그의 .. 2024. 12. 28.
머신러닝 - 데이터셋 표준화 데이터셋 표준화는 모델 훈련 전에 데이터의 스케일을 조정하는 과정이다. 그리고 머신러닝 데이터들은 많은 학습을 위해서 메모리와 연산 작업을 처리하는데, 표준화를 수행하는 주요 이유는 다음과 같다. 모델 성능 향상: 많은 머신러닝 알고리즘(특히, 릿지 회귀, 로지스틱 회귀, SVM 등)은 특성의 스케일에 민감하다.표준화를 통해 모델이 더 빠르고 안정적으로 수렴할 수 있게 된다.특성 중요도 균형: 표준화를 통해 모든 특성이 동일한 스케일을 가지게 되면, 모델이 특정 특성에 과도하게 의존하지 않도록 할 수 있다.수치적 안정성: 표준화를 통해 큰 값과 작은 값의 차이를 줄여 수치적 계산의 안정성을 높일 수 있다. 표준화는 일반적으로 각 특성의 평균을 0, 표준 편차를 1로 맞추는 방식으로 수행된다. 다음은 표준.. 2024. 12. 27.
머신러닝 - 선형 회귀 핵심 정리 머신러닝을 할때 선형 회귀는 가장 기본적으로 알고 있어야 하는 알고리즘 이라고 할 수 있다.선형 회귀는 가장 기초적인 데이터 과학이고 이를 확장하면 자연스럽게 딥러닝까지 이해할 수 있어, 선형회귀에 대해서 여기에서는 다루어보도록 하겠다.그럼 회귀 알고리즘을 왜 사용하는지에 대해서도 궁금증이 발생할 것이다.회귀 알고리즘은 주어진 데이터를 기반으로 연속적인 값을 예측하는 데 사용되는 통계적 기법입니다. 주로 두 변수 사이의 관계를 모델링하고, 독립 변수(입력값)가 주어졌을 때 종속 변수(출력값)를 예측하는 데 사용되는데, 일반적인 머신러닝, 데이터 분석, 경제학, 생물학등에서 결과 도출에 많이 사용되어지고, 연속적인 예측값을 도출에 뛰어나다고 할 수 있다. 1. 가장 먼저 해야 할 것은? 선형 회귀와 다항 .. 2024. 12. 27.
회귀 알고리즘 정리 및 특징 정리, 사례 1. 선형 회귀 (Linear Regression)특징: 가장 기본적인 회귀 알고리즘으로, 독립 변수와 종속 변수 간의 선형 관계를 모델링합니다.장점: 간단하고 해석이 쉬우며 계산이 빠릅니다.단점: 데이터가 선형적이지 않을 경우 성능이 떨어집니다.선형 회귀는 실제는 많이 사용되지 않고 교육용도로 많이 사용되고, 기본적으로 선형 회귀를 보완하는 알고리즘들이기 때문에 기본적으로 필수로 알고있어야 하는 알고리즘이다. 2. 다중 선형 회귀 (Multiple Linear Regression)특징: 두 개 이상의 독립 변수를 사용하는 선형 회귀입니다.장점: 여러 변수의 영향을 동시에 고려할 수 있습니다.단점: 변수 간의 다중 공선성이 있을 경우 문제가 될 수 있습니다.다중 선형 회귀는 여러 조건을 한번에 대입해서 .. 2024. 12. 16.
LLM - Llama를 NPU 활용, 성능은 어느 정도 일까? 오늘은 놀고 있는 NPU를 활용할 수 있는 NPU  활용기 및 성능이 어느정도 차이가 나는지 확인해보도록 하겠다.NPU는 AI에서 필요로 하는 연산 작업에 최적화된 별도의 처리 장치로 NPU가 탑재가 되어 있다면 성능 탭에서 NPU를 확인할 수 있다.(여기에서는 Intel® NPU를 기반으로 글을 작성하였다.)NPU를 이용하면 가장 큰 장점은, 로컬에서 AI를 실행하는데 기존에는 GPU의 영향을 많이 받았다. 특히 메모리 부분도 무시못할 정도로 고가의 GPU를 필요로 했다는 점이다.하지만 NPU는 이런 부분을 해소하여 AI 연산을 전담해주게 된다. 특히 CPU에 함께 제공되어, 일반 개인 PC에서 사용할 만한 AI들을 로컬에서 CPU나 GPU를 의지 하지 않고 실행할 수 있게 되었다는 점이 가장 큰 장점.. 2024. 11. 1.
LLM - GGUF 파일이란? GGUF(Georgi Gerganov Unified Format)는 기존에 모델의 각 딥러링 프레임워크에서 서로 호환성이 어려운 부분을 개선한 것으로, 딥러닝 모델을 효율적으로 저장하고 배포하기 위한 새로운 파일 형식으로써 다음과 같은 특징을 가지고 있다.특징범용성: GGUF는 다양한 딥러닝 프레임워크와 호환되도록 설계되었다. TensorFlow, PyTorch, ONNX 등 다양한 플랫폼에서 사용할 수 있다.표준화된 포맷: 모델 저장 및 배포를 위한 표준화된 포맷을 제공하여, 모델 파일이 서로 다른 시스템 간에 쉽게 이동할 수 있다.효율성: 데이터와 메타데이터를 효율적으로 저장할 수 있는 구조를 가지고 있다. 이를 통해 모델 파일의 크기와 로딩 시간을 줄일 수 있다.장점호환성 향상: 다양한 딥러닝 프레.. 2024. 8. 13.
Splunk - HEC 데이터 입력 Splunk에서는 다양한 데이터 전송 방법을 제공하는데, 그중 많이 사용되는 HTTP 를 이용한 전송 방법에 대해서 정리해보겠다.데이터 입력을 위해서는 우선 설정 > 데이터 입력을 실행한다.이후, 아래와 같이 HTTP Event Collector(이하 HEC)에 새로 추가를 선택하도록 하자. 새로 추가를 누르면 총 4단계로 구성이 되는데, 기본적으로 현재 HEC의 이름을 지정해 주면된다. 이외 설정중 인덱서 수신 확인 활성화 체크박스가 있는데, 이벤트가 들어갔을 때 수신 유무를 콜백(회신)해줄것인지를  설정하는 부분이다. 만약에 데이터 입력의 정확성이 중요한 경우 이를 통해서 데이터의 정상 입력 유무를 매 이벤트마다 확인이 가능하다.기본적으로는 사용하지 않는다. 다음을 누르면, 가장 중요한 부분으로 입력.. 2024. 8. 12.
Splunk - The minimum free disk space (5000MB) reached for /opt/splunk/var/run/splunk/dispatch Splunk를 운영하다보면, 검색결과가 저장되어 저장 공간이 부족한 경우 이와 같은 오류가 발생할 수 있다.이 오류는 운영중 검색이나 리포트 등의 데이터들도 공간을 차지하게 되는데, 이 저장 공간이 최소공간보다 부족해서 발생하는 오류라고 할 수 있다.Search not executed: The minimum free disk space (5000MB) reached for /opt/splunk/var/run/splunk/dispatch. user=admin., concurrency_category="historical", concurrency_context="user_instance-wide", current_concurrency=0, concurrency_limit=5000다만 이 오류를 조치하기 전에.. 2024. 8. 12.
반응형