프로젝트를 진행하면서 p-value와 R² 값에 대해서 모호해서 한번 정리해보려고 한다.
p-value란?
p-value는 주로 통계적 가설 검정에서 사용된다. 변수와 종속 변수 간의 관계를 측정할 때, 그 관계가 우연인지, 실제로 의미 있는 상관관계가 있는지를 판단하는 기준으로 사용된다.
p-value가 낮다
p-value가 낮다는 것은 귀무가설(변수 간에 상관관계가 없다)을 기각할 가능성이 높다는 의미다. 즉, 변수가 종속 변수에 유의미한 영향을 미칠 가능성이 크다는 뜻이다.
일반적으로 0.05 이하를 의미 있는 기준으로 삼는데, 이는 해당 관계가 우연일 가능성이 5% 이하라는 의미다. 즉, 95%의 신뢰로 해당 변수가 종속 변수에 영향을 미친다고 볼 수 있는 것이다.
p-value가 높다
p-value가 높다면, 변수와 종속 변수 사이에 실제로 상관관계가 없거나, 그 관계가 우연일 가능성이 높다는 뜻이다. 따라서 p-value가 0.05 이상이면, 해당 변수는 종속 변수에 유의미한 영향을 미친다고 보기 어렵다.
R²(결정 계수)란?
R²은 회귀 분석에서 사용되는 지표로, 모델이 종속 변수의 변동을 얼마나 설명할 수 있는지를 나타낸다.
- R² 값이 1에 가까울수록 모델이 데이터를 더 잘 설명하는 것이다. R²이 1이면 독립 변수들이 종속 변수의 변동을 완벽하게 설명한다는 뜻이다.
- 반대로 R² 값이 낮으면 모델이 데이터의 변동을 잘 설명하지 못한다는 뜻이다.
R²이 0.25 이상이면, 데이터 변동의 25% 이상을 설명할 수 있다는 뜻이므로 일반적으로(어느 정도) 의미 있는 모델이라고 볼 수 있다. 하지만 R²의 '유의미한' 기준은 문제의 복잡성, 데이터의 특성에 따라 달라질 수 있다.
β(베타 계수)란?
베타 계수(β)는 회귀 분석에서 독립 변수(X)가 종속 변수(Y)에 미치는 영향을 양적으로 나타낸 값이다. 베타 계수는 X가 1단위 증가할 때, Y가 얼마나 변화하는지를 나타낸다. 베타 값이 크면 해당 독립 변수가 종속 변수에 미치는 영향이 크다는 것을 의미한다.
베타 계수와 스케일링
데이터를 스케일링할 경우, 변수의 단위가 변하게 되어 베타 계수의 해석력에 변화가 생길 수 있다. 스케일링을 적용한 모델에서는, 변수의 상대적 중요도를 평가하는 데 더 유용하며, 스케일링하지 않은 상태에서는 X의 1단위 변화가 Y에 미치는 영향을 직접적으로 해석할 수 있다.
따라서, 스케일링 전에 베타 계수를 통해 각 변수의 해석을 먼저 확인한 후, 스케일링 후에는 변수 간의 중요도 비교나 랭킹을 평가하는 방식으로 진행하는 것이 바람직하다.
요약
- p-value는 해당 변수가 종속 변수에 유의미한 영향을 미치는지 판단하는 데 사용되며, 0.05 이하이면 해당 변수가 통계적으로 유의미하다.
- R²은 모델이 데이터를 얼마나 잘 설명하는지 나타내며, 0.25 이상이면 어느 정도 의미 있는 모델이라고 평가할 수 있다.
- p-value는 개별 변수의 유의성을 평가하는 반면, R²는 전체 모델의 설명력을 평가하는 데 사용된다는 점에서 차이가 있다.
- 베타 계수는 변수의 영향력을 양적으로 평가하며, 스케일링 전후로 그 해석이 다를 수 있다. 스케일링 전에는 X의 단위 변화에 따른 Y의 변화를, 스케일링 후에는 변수들의 중요도를 비교하는 데 중점을 둔다.
'ML' 카테고리의 다른 글
KMeans 추천 시스템 모델 서빙할 때 데이터셋까지 필요한 이유 (4) | 2024.10.29 |
---|---|
데이터 저장소 Data Source, Data Lake, Data Warehouse, Data Mart 기본 개념 (0) | 2024.10.24 |
선형회귀분석과 머신러닝의 차이 (0) | 2024.09.20 |
선형 회귀모델과 상관관계 분석 (1) | 2024.09.04 |
머신러닝 프로세스에서 변수 선택 방법 실전 사례 - Correlation 기반, Feature Importance 기반, Permutation Importance, Target permutation, Adversarial Validation (1) | 2024.09.03 |