반응형
머신러닝 - K-최근접 이웃 회귀(KNN Regression) 알고리즘 특징과 코드
K-최근접 이웃 회귀 (KNN Regression)
K-최근접 이웃 회귀는 새로운 데이터 포인트의 값을 예측하기 위해 가장 가까운 K개의 이웃 데이터를 사용하는 비모수 회귀 방법이다. 거리 측정을 통해 가까운 이웃을 찾고, 이 이웃들의 평균값을 사용하여 새로운 데이터 포인트의 값을 예측한다.
결정 계수 (R², Coefficient of Determination)
결정 계수는 모델이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표이다. 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 모델이 데이터를 잘 설명함을 의미한다. 결정 계수는 다음과 같이 계산된다:
R² = 1 - (SSresidual / SStotal)
여기서, SSresidual
은 잔차의 제곱합, SStotal
은 총 변동의 제곱합이다.
과대적합 (Overfitting)과 과소적합 (Underfitting)
과대적합은 모델이 학습 데이터에 너무 적합하여 새로운 데이터에 대한 일반화 능력이 떨어지는 현상이다. 과소적합은 모델이 학습 데이터의 패턴을 충분히 학습하지 못한 상태로, 학습 데이터와 새로운 데이터 모두에서 성능이 낮게 나타난다.
KNN 회귀와 결정 계수, 과대적합, 과소적합의 연관성
KNN 회귀에서 과대적합과 과소적합은 K 값에 크게 영향을 받는다.
- K 값이 너무 작을 때 (예: K=1): 모델이 학습 데이터에 너무 민감해지며 과대적합이 발생할 수 있다. 결정 계수가 학습 데이터에서 높게 나타나지만, 새로운 데이터에서는 낮아질 수 있다.
- K 값이 너무 클 때 (예: K가 데이터 수와 비슷할 때): 모델이 일반적인 경향만을 따르기 때문에 과소적합이 발생할 수 있다. 결정 계수가 학습 데이터와 새로운 데이터 모두에서 낮게 나타날 수 있다.
결국, 적절한 K 값을 선택하는 것이 중요하다. 교차 검증(cross-validation) 등을 통해 적절한 K 값을 찾는 것이 일반적이다.
반응형