전체 글

하다보니 재미있는 AI에 빠져있는 냉면7 문의사항: ysoil8811@gmail.com
단순선형 회귀모델과 상관관계 분석상관관계(Correlation)한 변수가 변화할 때 다른 변수가 함께 변화하는 경향성을 보일 때 두 변수 사이의 관계를 상관관계라고 한다. 인과관계(Causation)한 변수의 변화가 원인이 되어 그 결과로써 다른 변수를 변화시킬 때, 두 변수 사이의 관계를 인과관계라고 한다.인과관계가 있는 변수는 상관관계도 있지만, 역은 성립하지 않는다.상관관계의 판단은 쉽지만 인과관계는 그렇지 않다.그래서 이 뒤에 상관관계 분석은 이름처럼 상관관계를 분석하는 것이지, 인관관계를 분석하는 것이 아니라는 걸 명심해야 한다! 선형회귀 (Linear Regression)선형회귀 모델은 데이터를 가장 잘 대변하는 최적의 선을 찾는 과정이다.독립변수들(X)과 연속형 종속변수(Y) 사이의 선형 관..
이번 글은 이전 글에서 작성한 개념을 적용한 실전 사례 중심 내용이다. 그러니 이전 글을 읽고 오면 좋다.머신러닝 프로세스에서 변수 선택 방법 - Filter methods, Wrapper methods, Embedded methods 머신러닝 프로세스에서 변수 선택 방법 - Filter methods, Wrapper methods, Embedded methods📌 서론머신러닝 프로세스에서 변수를 선택하는 것 또한 중요하다. 이번 글에서는 변수를 선택하는 방법에 대해서 설명해 보겠다.머신러닝 프로세스문제 해결 프로세스/머신러닝 프로세스는yijoon009.tistory.com  실전 사례 1 - Correlation 기반 selectionKaggle IEEE-CIS Fraud Detection 대회에서 ..
📌 서론머신러닝 프로세스에서 변수를 선택하는 것 또한 중요하다. 이번 글에서는 변수를 선택하는 방법에 대해서 설명해 보겠다.머신러닝 프로세스문제 해결 프로세스/머신러닝 프로세스는 다음과 같다.여기서 변수 선택의 의미를 생각해 보자. 현재 데이터 수집이 되었고, 수집한 데이터를 전처리하는 단계에서 EDA를 통해 데이터 분석을 진행했다. 결측치와 이상치를 처리하고 연속형 변수에 대해서 transformation이나 다른 변환 처리를 했고, 변주형 변수에 대해서도 처리한 상황이라고 가정해 보자. 그리고 그러한 데이터에 추가적인 feature engineering을 생성해 줘서 성능까지 끌어올릴 준비가 된 상황이다. 이 상황에서 변수 선택의 의미가 무엇일까? 변수 선택 의미변수 선택의 정의는, 기존의 변수와..
RAG와 Fine-Tuning 차이사실 RAG와 Fine-Tuning 중에 하나만을 써야 하는 건 아니다. 두 개를 전부 사용하는 모델도 있다. 하지만 일단 이 두가 지 접근법을 비교하는 건 의미가 있을 것 같다.Knowledge sourceRAGparametric + non-parametric즉, external knowledge를 결합해서 시너지 효과를 보는 방법론Fine-Tuning베이스 모델을 태스크에 맞게 추가로 파인튜닝즉, parametric knowledge를 업데이트하는 방식Knowledge updateRAG소스가 되는 외부 데이터베이스를 업데이트함으로써 모델 전체를 최신화할 수 있다.Fine-Tuning반면, 파인 튜닝 방식으로 모델을 최신화하기 위해서는 학습을 다시 시켜야 한다. 살..
일반적인 생성형 언어모델의 파이프라인User가 input을 주면 GPT나 T5 같은 언어모델의 내부를 지나게 된다. 언어 모델은 사전학습된 파라미터 값들과 input값들을 통해 ouput을 만들어낸다. 우리는 이 과정에서 자세히 어떤 일이 일어나는지 알 수 없다. 단지 언어모델의 어딘가에는 학습과정 때 주어진 지식들이 저장되어 있을 거라는 걸 실험적으로 도출할 수 있을 뿐이다. 이걸 파라메트릭 메모리(Parametric Memory)라고 한다. 파라미터에 저장되어 있기때문에 이런 이름이 붙었다. 모델이 적절하게 학습되었고 또 모델의 capacity가 충분할 경우에는 모델의 첫 번째 질문, '2020년 최저시급이 얼마야?'라는 질문에 첫 번째 예시와 같이 2020년 한국의 최저시급은 8,590원이라고 정..
📌 서론이번 글에서 설명할 모델들은 이전 글에서 설명한 트랜스포머 구조를 사용한 모델들이다. 그러므로 트랜스포머 구조를 설명한 이전 글을 읽고 오면 좋을 것 같다!2024.08.19 - [Upstage AI Lab 4기/RAG] - [RAG] RAG의 기본 개념 및 트랜스포머 어텐션 설명 (1) [RAG] RAG의 기본 개념 및 트랜스포머 어텐션 설명 (1)1. RAGRAG는 “Retrieval Augmented Generation”의 약자로, 사용자의 쿼리에 대한 응답을 생성할 때 모델의 내재적 지식에만 의존하지 않고, 외부의 지식을 검색하여 보충하는 방법이다. 이 방법은 크게 세yijoon009.tistory.com BertBert는 트랜스포머의 인코더만을 사용한 모델이다.디코더 부분이 없으니 자연..
사분위 범위(IQR)사분위수(Quartile)값을 같은 개수로 4개로 나눈 각각의 값 1사분위수(Q1)25th Percentile 2사분위수(Q2)Median(중앙값), 50th Percentile 3사분위수(Q3)75th Percentile 사분위간 범위(Interquartile Range, IQR)Q3 - Q1 MaximumQ3 + 1.5 * IQR MinimumQ1 - 1.5 * IQR OutliersMinimum 보다 작거나Maximum보다 큰 값 예시 1A 마을의 나이가 다음과 같다고 가정해 보자.1사분위수(Q1)25th Percentile → 352사분위수(Q2)Median(중앙값), 50th Percentile-> 473사분위수(Q3)75th Percentile → 80사분위간 범위(Inte..
python의 pandas를 이용해 데이터의 기초 통계를 알아보자.데이터 불러오기import pandas as pd import matplotlib.pyplot as pltimport seaborn as snsimport numpy as npfrom datetime import datetime from statsmodels.tsa.seasonal import seasonal_decompose# 한글 깨짐plt.rc('font', family='NanumBarunGothic') df = pd.read_excel('../data/도로교통공단_일자별 시군구별 교통사고 건수.xlsx')df.head() 현재 발생월, 일이 조금 알아보기 어려운 형태라 이 부분만 ..
평양냉면7
하다보니 재미있는 AI