Ensembles란?여러 개의 머신러닝 모델을 결합하여 개별 모델보다 더 강력한 성능을 달성하는 기법이다.모델 학습 과정에서만 최적화앙상블을 하게 된 이유는 여러 모델의 예측을 결합함으로써 각 각의 모델이 가질 수 있는 특정 유형의 오류를 상쇄시킬 수 있기 때문이다.방법 : Bagging, Boosting, Stacking 배깅 (Bagging)Bootstrap Aggregating의 줄임말여러 개의 모델이 서로 다른 데이터 샘플에 대해 학습하고, 그 결과를 통합하는 방식이다Random Forest가 대표적 : 다수의 Decision Trees를 학습시키고, 각 트리의 예측을 평균내거나 다수결로 결정하여 최종 예측을 도출한다.모델의 variance을 감소시키고 overfitting을 방지하는데 유용하다...
ML
지난 경진대회에서 시간이 없어서 시도해보지 못한 sweep 기능을 적용하면서 한번 정리해보려고 한다.1. WandB Sweep이란?WandB의 Sweep 기능은 하이퍼파라미터 최적화 실험을 자동화하는 도구다. learning_rate, batch_size, dropout 등 다양한 하이퍼파라미터 조합을 자동으로 탐색하여 최적의 조합을 찾아주는 기능을 제공한다.Sweep의 장점자동화된 하이퍼파라미터 튜닝: 일일이 실험을 돌릴 필요 없이 설정된 조합에 따라 실험이 자동으로 진행된다.효율적인 탐색: 다양한 하이퍼파라미터 조합을 효과적으로 탐색하고 최적의 성능을 찾아낼 수 있다.결과 시각화: Parallel 플롯과 같은 시각화 도구로 하이퍼파라미터와 성능 간 관계를 직관적으로 파악할 수 있다. 2. WandB ..
서론기존에 머신러닝 프로젝트를 진행하면서 주로 회귀 모델을 사용해 왔는데 최근 프로젝트에서는 KMeans 클러스터링을 활용한 유사 음악 추천 시스템을 구축하게 되었다. 이 시스템의 목표는 다양한 노래 데이터셋을 활용하여 사용자가 입력한 노래와 유사한 곡을 10개 추천하는 것이었다. 클러스터링이 완료된 KMeans 모델을 pkl 파일로 저장하고 서빙하려고 했으나 예상치 못한 에러가 발생했다. KMeans 모델을 이용해 추천하려면 단순히 모델 파일뿐 아니라 클러스터링에 사용한 데이터셋도 필요하다는 사실을 처음 알게 되었다. 이에 따라 회귀 모델과 KMeans 모델의 차이점을 정리해 보았다. 유사곡 추천 시스템을 정리한 내용은 다음 링크에서 확인해볼 수 있다.유사도 기반 음악 추천 시스템 Docker 기반 A..
Data Sources (데이터 소스)데이터 소스는 기업의 다양한 시스템에서 발생하는 원천 데이터를 의미한다. 이를테면, 마케팅, 주문, 재고 관리 등 기업이 운영되는 과정에서 발생하는 모든 데이터를 원천 시스템이라고 부르며, 이 데이터가 저장되는 곳을 데이터 소스라고 한다. 데이터 소스는 해당 시스템에서 최초로 생성된 데이터를 보관하는 역할을 한다. 예를 들어, 마케팅 활동의 결과 데이터는 마케팅 DB에, 주문 시스템에서 발생한 주문 데이터는 주문 DB에 저장된다. 이러한 시스템을 원천 시스템 또는 데이터 소스라고 칭하며, 여기서 생성된 원본 데이터를 활용해 다양한 분석 및 비즈니스 활동이 진행된다. Data Lake (데이터 레이크)데이터 레이크는 다양한 원천 시스템에서 수집된 대량의 데이터를 저장하..
프로젝트를 진행하면서 p-value와 R² 값에 대해서 모호해서 한번 정리해보려고 한다.p-value란?p-value는 주로 통계적 가설 검정에서 사용된다. 변수와 종속 변수 간의 관계를 측정할 때, 그 관계가 우연인지, 실제로 의미 있는 상관관계가 있는지를 판단하는 기준으로 사용된다.p-value가 낮다p-value가 낮다는 것은 귀무가설(변수 간에 상관관계가 없다)을 기각할 가능성이 높다는 의미다. 즉, 변수가 종속 변수에 유의미한 영향을 미칠 가능성이 크다는 뜻이다.일반적으로 0.05 이하를 의미 있는 기준으로 삼는데, 이는 해당 관계가 우연일 가능성이 5% 이하라는 의미다. 즉, 95%의 신뢰로 해당 변수가 종속 변수에 영향을 미친다고 볼 수 있는 것이다. p-value가 높다p-value가 높다..
📌 서론우리 팀은 아파트 실거래가 예측을 목표로 하는 경진대회에 참가하고 있었다. 초기에는 변수를 선형회귀 분석 방식으로 접근하여, 서로 상관관계가 높은 피처들은 제거하려고 했었다. 그러나 멘토님께서 현재 우리가 사용하고 있는 방법은 선형회귀와는 다르며, 머신러닝을 적용하고 있다는 조언을 해주셨다. 여기서 혼란이 생겼는데, 머신러닝과 선형회귀는 기본적인 목표와 방식에서 차이가 있었다. 선형회귀분석은 각 변수가 결과에 미치는 개별적인 영향을 정확하게 평가하려고 하는 반면, 머신러닝은 예측의 정확성을 높이는 데 초점을 맞춘다. 그래서 선형회귀 분석에서는 변수들 간의 상관관계를 최대한 낮추려 하지만, 머신러닝에서는 상관관계가 높은 변수를 무조건 제거하지 않고, 모든 정보를 활용해 최상의 예측 성능을 도출하려..
단순선형 회귀모델과 상관관계 분석상관관계(Correlation)한 변수가 변화할 때 다른 변수가 함께 변화하는 경향성을 보일 때 두 변수 사이의 관계를 상관관계라고 한다. 인과관계(Causation)한 변수의 변화가 원인이 되어 그 결과로써 다른 변수를 변화시킬 때, 두 변수 사이의 관계를 인과관계라고 한다.인과관계가 있는 변수는 상관관계도 있지만, 역은 성립하지 않는다.상관관계의 판단은 쉽지만 인과관계는 그렇지 않다.그래서 이 뒤에 상관관계 분석은 이름처럼 상관관계를 분석하는 것이지, 인관관계를 분석하는 것이 아니라는 걸 명심해야 한다! 선형회귀 (Linear Regression)선형회귀 모델은 데이터를 가장 잘 대변하는 최적의 선을 찾는 과정이다.독립변수들(X)과 연속형 종속변수(Y) 사이의 선형 관..
이번 글은 이전 글에서 작성한 개념을 적용한 실전 사례 중심 내용이다. 그러니 이전 글을 읽고 오면 좋다.머신러닝 프로세스에서 변수 선택 방법 - Filter methods, Wrapper methods, Embedded methods 머신러닝 프로세스에서 변수 선택 방법 - Filter methods, Wrapper methods, Embedded methods📌 서론머신러닝 프로세스에서 변수를 선택하는 것 또한 중요하다. 이번 글에서는 변수를 선택하는 방법에 대해서 설명해 보겠다.머신러닝 프로세스문제 해결 프로세스/머신러닝 프로세스는yijoon009.tistory.com 실전 사례 1 - Correlation 기반 selectionKaggle IEEE-CIS Fraud Detection 대회에서 ..