프로젝트를 진행하면서 p-value와 R² 값에 대해서 모호해서 한번 정리해보려고 한다.p-value란?p-value는 주로 통계적 가설 검정에서 사용된다. 변수와 종속 변수 간의 관계를 측정할 때, 그 관계가 우연인지, 실제로 의미 있는 상관관계가 있는지를 판단하는 기준으로 사용된다.p-value가 낮다p-value가 낮다는 것은 귀무가설(변수 간에 상관관계가 없다)을 기각할 가능성이 높다는 의미다. 즉, 변수가 종속 변수에 유의미한 영향을 미칠 가능성이 크다는 뜻이다.일반적으로 0.05 이하를 의미 있는 기준으로 삼는데, 이는 해당 관계가 우연일 가능성이 5% 이하라는 의미다. 즉, 95%의 신뢰로 해당 변수가 종속 변수에 영향을 미친다고 볼 수 있는 것이다. p-value가 높다p-value가 높다..
분류 전체보기
📌 서론지난 글에서 파인튜닝한 모델을 S3에 업로드하는 것까지 진행했었다. 이제는 S3에서 모델을 다운로드하고, FAST API를 이용해서 모델을 배포하는 과정을 진행해 보자! 그리고 도커로 build 해서 컨테이너형으로 배포까지 해보자!이전글 링크: TinyBERT로 감정 분석 모델 학습부터 AWS S3에 모델 업로드📌 서론이번 글에서는 사전 학습된 모델(TinyBERT)을 허깅페이스에서 가져와서 IMDB 영화 리뷰 데이터셋으로 파인튜닝을 하고, 새로 학습된 모델을 AWS S3에 업로드하는 과정을 정리해볼것이다.IMDByijoon009.tistory.com 지금 진행할 프로젝트의 트리 구조는 다음과 같다. FastAPI 적용모델을 서빙하기 위해 Fast API를 적용해보자. app > app.p..
📌 서론이번 글에서는 사전 학습된 모델(TinyBERT)을 허깅페이스에서 가져와서 IMDB 영화 리뷰 데이터셋으로 파인튜닝을 하고, 새로 학습된 모델을 AWS S3에 업로드하는 과정을 정리해볼것이다.IMDB 데이터셋 로드 및 전처리IMDB 영화 리뷰 데이터셋을 가져오자. 이 데이터셋은 영화 리뷰와 각 리뷰의 감정(sentiment)을 포함하고 있다.## 데이터로드 import pandas as pddata = pd.read_csv('https://raw.githubusercontent.com/laxmimerit/All-CSV-ML-Data-Files-Download/master/IMDB-Dataset.csv')data.head()그리고 데이터셋을 전처리하는데 필요한 라이브러리를 설치해주자 dataset..
MLFlow란?MLflow는 머신러닝 라이프사이클 관리 플랫폼으로, 실험 추적, 모델 개발, 배포, 그리고 운영까지 자동화하고 일관되게 관리할 수 있다. 실험 추적, 프로젝트 실행, 모델 저장 및 배포를 포함한 다양한 기능을 제공하여, 사용자가 재현 가능한 환경에서 모델을 관리할 수 있게 돕는다. (선택사항) 가상 환경 구축venv 사용 방법일단 파이썬 내장으로 실행할 수 있는 venv를 사용해서 가상 환경을 구축해보자. .venv로 앞에 .을 붙인 이유는 root 폴더에 생성되게 하기 위함이다. 실행은 두 번째 줄에 있는 source 명령어를 사용해서 가상 환경을 활성화시킬 수 있다.python3.10 -m venv .venvsource .venv/bin/activate활성화 되면 다음과 같이 te..
📌 서론우리 팀은 아파트 실거래가 예측을 목표로 하는 경진대회에 참가하고 있었다. 초기에는 변수를 선형회귀 분석 방식으로 접근하여, 서로 상관관계가 높은 피처들은 제거하려고 했었다. 그러나 멘토님께서 현재 우리가 사용하고 있는 방법은 선형회귀와는 다르며, 머신러닝을 적용하고 있다는 조언을 해주셨다. 여기서 혼란이 생겼는데, 머신러닝과 선형회귀는 기본적인 목표와 방식에서 차이가 있었다. 선형회귀분석은 각 변수가 결과에 미치는 개별적인 영향을 정확하게 평가하려고 하는 반면, 머신러닝은 예측의 정확성을 높이는 데 초점을 맞춘다. 그래서 선형회귀 분석에서는 변수들 간의 상관관계를 최대한 낮추려 하지만, 머신러닝에서는 상관관계가 높은 변수를 무조건 제거하지 않고, 모든 정보를 활용해 최상의 예측 성능을 도출하려..
학습 목표 및 접근 방법 우리 팀의 개인과 팀의 학습 목표는 동일한 방향을 가졌다. 경진대회 순위도 중요했지만, 더 중요한 것은 개인의 역량 향상이었다. 팀원 모두 이번 경진대회를 학습의 기회로 삼아 각자의 역량을 강화하기로 했다. 우선 직전에 배운 강의 내용을 실제 경진대회에 적용할 수 있을 정도로 이해하는 것부터 시작했다. 베이스코드가 있어서 그 코드를 실행해 보며 전체적인 흐름을 파악한 뒤, 팀원들과 함께 어떤 외부 데이터를 가져와야 부동산 시세 예측에 도움이 될지 회의했다. 매일 오전 10시, 오후 2시, 필요시에는 (거의 매일) 오후 4~5시에도 회의를 열어 활발하게 아이디어를 공유하고 토론했다. 이 과정에서 지하철역 인접 변수를 파생변수로 추가하고, 각 지역구의 ‘대장 아파트’와의 거리 계산을..
단순선형 회귀모델과 상관관계 분석상관관계(Correlation)한 변수가 변화할 때 다른 변수가 함께 변화하는 경향성을 보일 때 두 변수 사이의 관계를 상관관계라고 한다. 인과관계(Causation)한 변수의 변화가 원인이 되어 그 결과로써 다른 변수를 변화시킬 때, 두 변수 사이의 관계를 인과관계라고 한다.인과관계가 있는 변수는 상관관계도 있지만, 역은 성립하지 않는다.상관관계의 판단은 쉽지만 인과관계는 그렇지 않다.그래서 이 뒤에 상관관계 분석은 이름처럼 상관관계를 분석하는 것이지, 인관관계를 분석하는 것이 아니라는 걸 명심해야 한다! 선형회귀 (Linear Regression)선형회귀 모델은 데이터를 가장 잘 대변하는 최적의 선을 찾는 과정이다.독립변수들(X)과 연속형 종속변수(Y) 사이의 선형 관..
이번 글은 이전 글에서 작성한 개념을 적용한 실전 사례 중심 내용이다. 그러니 이전 글을 읽고 오면 좋다.머신러닝 프로세스에서 변수 선택 방법 - Filter methods, Wrapper methods, Embedded methods 머신러닝 프로세스에서 변수 선택 방법 - Filter methods, Wrapper methods, Embedded methods📌 서론머신러닝 프로세스에서 변수를 선택하는 것 또한 중요하다. 이번 글에서는 변수를 선택하는 방법에 대해서 설명해 보겠다.머신러닝 프로세스문제 해결 프로세스/머신러닝 프로세스는yijoon009.tistory.com 실전 사례 1 - Correlation 기반 selectionKaggle IEEE-CIS Fraud Detection 대회에서 ..