사분위 범위(IQR)사분위수(Quartile)값을 같은 개수로 4개로 나눈 각각의 값 1사분위수(Q1)25th Percentile 2사분위수(Q2)Median(중앙값), 50th Percentile 3사분위수(Q3)75th Percentile 사분위간 범위(Interquartile Range, IQR)Q3 - Q1 MaximumQ3 + 1.5 * IQR MinimumQ1 - 1.5 * IQR OutliersMinimum 보다 작거나Maximum보다 큰 값 예시 1A 마을의 나이가 다음과 같다고 가정해 보자.1사분위수(Q1)25th Percentile → 352사분위수(Q2)Median(중앙값), 50th Percentile-> 473사분위수(Q3)75th Percentile → 80사분위간 범위(Inte..
EDA
python의 pandas를 이용해 데이터의 기초 통계를 알아보자.데이터 불러오기import pandas as pd import matplotlib.pyplot as pltimport seaborn as snsimport numpy as npfrom datetime import datetime from statsmodels.tsa.seasonal import seasonal_decompose# 한글 깨짐plt.rc('font', family='NanumBarunGothic') df = pd.read_excel('../data/도로교통공단_일자별 시군구별 교통사고 건수.xlsx')df.head() 현재 발생월, 일이 조금 알아보기 어려운 형태라 이 부분만 ..
🌟 해당 글은 이전 글과 이어지니 꼭! 이전글을 읽어주시기 바랍니다. 이전 글 링크는 아래 있습니다. [넷플릭스 데이터 분석] - Feature Engineering (2) [넷플릭스 데이터 분석] - Feature Engineering (2)🌟 해당 글은 이전 글과 이어지니 꼭! 이전글을 읽어주시기 바랍니다. 이전 글 링크는 아래 있습니다. [넷플릭스 데이터 분석] - 결측치 처리 (1) [넷플릭스 데이터 분석] - 결측치 처리 (1)이번yijoon009.tistory.com 넷플릭스 검색넷플릭스에서 원하는 프로그램을 검색해 보자.오징어 게임을 검색한 조건을 netflix 원본 데이터에 넣어서 True인 값만 출력str.contains( ) : 지정한 문자열이 포함되어 있으면 True 반환, 그 ..
🌟 해당 글은 이전 글과 이어지니 꼭! 이전글을 읽어주시기 바랍니다. 이전 글 링크는 아래 있습니다. [넷플릭스 데이터 분석] - 결측치 처리 (1) [넷플릭스 데이터 분석] - 결측치 처리 (1)이번 시간에는 넷플릭스 데이터 분석 과정을 소개해보려고 한다.내가 다운로드한 자료는 다음 링크에서 확인할 수 있다.https://www.kaggle.com/datasets/shivamb/netflix-shows Netflix Movies and TV ShowsListings of moyijoon009.tistory.com Feature EngineeringFeature Engineering 이란, 기존에 존재하는 변수를 활용하여 새로운 정보를 추가로 생성하는 과정이다. 첫 번째 변환 - datetime으로 변..
이번 시간에는 넷플릭스 데이터 분석 과정을 소개해보려고 한다.내가 다운로드한 자료는 다음 링크에서 확인할 수 있다.https://www.kaggle.com/datasets/shivamb/netflix-shows Netflix Movies and TV ShowsListings of movies and tv shows on Netflix - Regularly Updatedwww.kaggle.com 해당 넷플릭스 데이터는 2008년 1월부터 2021년 9월까지 데이터가 업로드되어 있다. 넷플릭스에 추가된 8000편의 영화, TV Show 정보가 담겨 있다. 데이터 분석 목표데이터 파악데이터 전처리결측치 처리피처 엔지니어링(파생변수 생성)데이터 분석을 통한 인사이트 도출오징어 게임('Squid Game') 검..