728x90
📌 서론
우리 팀은 아파트 실거래가 예측을 목표로 하는 경진대회에 참가하고 있었다. 초기에는 변수를 선형회귀 분석 방식으로 접근하여, 서로 상관관계가 높은 피처들은 제거하려고 했었다. 그러나 멘토님께서 현재 우리가 사용하고 있는 방법은 선형회귀와는 다르며, 머신러닝을 적용하고 있다는 조언을 해주셨다.
여기서 혼란이 생겼는데, 머신러닝과 선형회귀는 기본적인 목표와 방식에서 차이가 있었다. 선형회귀분석은 각 변수가 결과에 미치는 개별적인 영향을 정확하게 평가하려고 하는 반면, 머신러닝은 예측의 정확성을 높이는 데 초점을 맞춘다. 그래서 선형회귀 분석에서는 변수들 간의 상관관계를 최대한 낮추려 하지만, 머신러닝에서는 상관관계가 높은 변수를 무조건 제거하지 않고, 모든 정보를 활용해 최상의 예측 성능을 도출하려고 한다.
이러한 차이점을 이해하는 것이 이번 대회의 중요한 학습 포인트가 되었고, 머신러닝에서 변수를 어떻게 다루고 해석할 것인지에 대한 고민이 이어졌었다.
일단 두 분석의 차이를 정리해보려고 한다.
해당 경진대회는 종료됐다! 후기는 다음 링크에 정리해 봤다.
[Upstage AI Lab 4기] '아파트 실거래가 예측' 경진대회 Private Rank 3등 후기
1. 선형회위분석
- 선형회귀에서는 주로 ( y = ax + b ) 같은 간단한 식으로 출력 ( y )와 입력 변수 ( x ) 사이의 관계를 설명하고자 한다.
- 여기서 중요한 건 각 변수들이 서로 상관관계가 낮다는 가정이다. 즉, 변수들 간의 상관관계가 너무 높으면 그 변수가 실제로 ( y )에 얼마나 기여했는지를 정확하게 파악하기 어려워진다. 그래서 다중공선성을 피하고자 한다.
- 이를 확인하기 위해 VIF(Variance Inflation Factor) 같은 지표를 활용해 변수들 간 상관관계를 측정하고, VIF 값이 높으면 해당 변수를 제거하거나 조정하는 방식으로 다룬다.
- 또한, 회귀 모델이 설명하는 변수의 비율을 나타내는 ( R^2 ) 값을 쓰는데, 상관관계가 높은 변수를 많이 넣으면 모델의 설명력이 과장될 수 있다. 이를 보정하기 위해 Adjusted ( R^2 ) 값을 사용해 실제로 모델이 잘 설명하고 있는지를 평가한다.
2. 머신러닝
- 머신러닝에서는 각 변수 간의 상관관계에 크게 신경을 쓰지 않고, 단순히 모델이 예측을 잘하도록 많은 변수를 넣는 방식이다. 머신러닝의 주요 목표는 예측값(y hat)을 정확하게 맞추는 것이지, 각 변수가 결과에 미치는 개별적인 영향을 평가하는 데는 초점이 맞춰져 있지 않다.
- 그래서 변수 간 상관관계가 높더라도 이를 고려하지 않고 일단 모델에 다 넣어보고, 그 안에서 어떤 패턴이 나오는지 본다.
- 머신러닝 모델에서는 여러 변수가 동시에 상관관계를 갖더라도, 예측 성능만 잘 나오면 상관관계 자체는 큰 문제가 되지 않는다. 다만 이런 변수들이 있을 때 모델의 해석이 어려워질 수 있다.
Feature Importances와 다중공선성
- 머신러닝에서 변수의 상대적인 중요도를 평가할 때는 피처 임포턴스(Feature Importance)를 사용한다. 하지만 피처 임포턴스는 각 변수가 모델에 주는 영향을 상대적으로 보여주는 것이지, 그것이 절대적인 중요도는 아니다.
- 만약 특정 변수를 제거하거나 추가했을 때 피처 임포턴스가 크게 달라지면, 그 이유는 변수들 간의 상관관계나 다중공선성 때문이다.
- 따라서, 머신러닝에서는 피처들의 개별 기여도를 정확하게 측정하는 것은 선형회귀만큼 명확하지 않다.
- 만약 변수가 모델에 미치는 영향을 개별적으로 파악하고 싶다면 퍼뮤테이션 중요도(Permutation Importance)를 사용해 볼 수 있다. 이 방법은 각 변수를 섞거나 제거해 보면서 성능이 얼마나 떨어지는지를 통해 해당 변수의 기여도를 평가하는 방식이다. 이를 통해 머신러닝에서도 변수의 개별적 영향을 보다 명확하게 파악할 수 있다.
결론
결론적으로, 선형회귀는 변수 간의 관계를 명확하게 파악하고 예측값에 미치는 개별적 영향을 평가하는 데 주력하는 반면, 머신러닝은 변수들의 상관관계를 무시하고 예측 정확성을 높이는 데 집중하는 차이가 있다.
'ML' 카테고리의 다른 글
데이터 저장소 Data Source, Data Lake, Data Warehouse, Data Mart 기본 개념 (0) | 2024.10.24 |
---|---|
p-value, R²(결정 계수), β(베타 계수) 해석 (3) | 2024.09.25 |
선형 회귀모델과 상관관계 분석 (1) | 2024.09.04 |
머신러닝 프로세스에서 변수 선택 방법 실전 사례 - Correlation 기반, Feature Importance 기반, Permutation Importance, Target permutation, Adversarial Validation (1) | 2024.09.03 |
머신러닝 프로세스에서 변수 선택 방법 - Filter methods, Wrapper methods, Embedded methods (0) | 2024.09.03 |