🌟 해당 글은 이전 글과 이어지니 꼭! 이전글을 읽어주시기 바랍니다. 이전 글 링크는 아래 있습니다. [넷플릭스 데이터 분석] - Feature Engineering (2) [넷플릭스 데이터 분석] - Feature Engineering (2)🌟 해당 글은 이전 글과 이어지니 꼭! 이전글을 읽어주시기 바랍니다. 이전 글 링크는 아래 있습니다. [넷플릭스 데이터 분석] - 결측치 처리 (1) [넷플릭스 데이터 분석] - 결측치 처리 (1)이번yijoon009.tistory.com 넷플릭스 검색넷플릭스에서 원하는 프로그램을 검색해 보자.오징어 게임을 검색한 조건을 netflix 원본 데이터에 넣어서 True인 값만 출력str.contains( ) : 지정한 문자열이 포함되어 있으면 True 반환, 그 ..
분류 전체보기
🌟 해당 글은 이전 글과 이어지니 꼭! 이전글을 읽어주시기 바랍니다. 이전 글 링크는 아래 있습니다. [넷플릭스 데이터 분석] - 결측치 처리 (1) [넷플릭스 데이터 분석] - 결측치 처리 (1)이번 시간에는 넷플릭스 데이터 분석 과정을 소개해보려고 한다.내가 다운로드한 자료는 다음 링크에서 확인할 수 있다.https://www.kaggle.com/datasets/shivamb/netflix-shows Netflix Movies and TV ShowsListings of moyijoon009.tistory.com Feature EngineeringFeature Engineering 이란, 기존에 존재하는 변수를 활용하여 새로운 정보를 추가로 생성하는 과정이다. 첫 번째 변환 - datetime으로 변..
이번 시간에는 넷플릭스 데이터 분석 과정을 소개해보려고 한다.내가 다운로드한 자료는 다음 링크에서 확인할 수 있다.https://www.kaggle.com/datasets/shivamb/netflix-shows Netflix Movies and TV ShowsListings of movies and tv shows on Netflix - Regularly Updatedwww.kaggle.com 해당 넷플릭스 데이터는 2008년 1월부터 2021년 9월까지 데이터가 업로드되어 있다. 넷플릭스에 추가된 8000편의 영화, TV Show 정보가 담겨 있다. 데이터 분석 목표데이터 파악데이터 전처리결측치 처리피처 엔지니어링(파생변수 생성)데이터 분석을 통한 인사이트 도출오징어 게임('Squid Game') 검..
이번 글에서 실습할 내용은 이전 글에서 다운로드한 seaborn에서 제공해 주는 타이타닉 데이터다. 해당 내용은 이전 글에서 확인할 수 있다.[Seaborn] 기본 개념 - 데이터 불러오기 [Seaborn] 기본 개념 - 데이터 불러오기Seabornseaborn은 matplotlib 기반의 시각화 라이브러리이다. 유익한 통계 기반 그래픽을 그리기 위한 고급 인터페이스를 제공한다. 설치 방법# seaborn 불러와서 sns로 사용import seaborn as sns 데이터 불러yijoon009.tistory.com 선형 회귀선 있는 산점도regplot() 함수 : 선형 회귀선이 있는 산점도x축 변수y축 변수데이터 셋axe 객체fit_reg : 선형회귀선 표시 여부선형 회귀선간단한 선형 데이터 집합에 ..
Seabornseaborn은 matplotlib 기반의 시각화 라이브러리이다. 유익한 통계 기반 그래픽을 그리기 위한 고급 인터페이스를 제공한다. 설치 방법# seaborn 불러와서 sns로 사용import seaborn as sns 데이터 불러오기seaborn 라이브러리에서 제공하는 titanic 데이터 불러오기 (kaggle에서 받은 타이타닉 데이터셋과는 다르다. 그러니 새로 받아주면 좋다.)seaborn의 load_dataset() 함수를 이용하면 된다.https://github.com/mwaskom/seaborn-data GitHub - mwaskom/seaborn-data: Data repository for seaborn examplesData repository for seaborn exam..
Matplotlib 영역을 지정하여 여러 개 그래프 적용subplot() 함수는 영역을 나눠 여러 개의 그래프를 시각화할 수 있다. 사용 방법은 다음과 같다.plt.subplot(row, column, index) tight_layout() 함수는 모서리와 서브플롯의 모서리 사이의 여백(padding)을 설정하는 함수다. subplot()x값linspace : 몇등분할지 생각하면 된다. 기본값은 50이다.# np.linspace(0, 10) : 0부터 10까지 50등분한 결과를 배열로 반환x1 = np.linspace(0, 10)x1 # np.linspace(0, 4) : 0부터 4까지 50등분한 결과를 배열로 반환x2 = np.linspace(0, 4)x2 y값y값은 역동적인 그래프를 위한 n..
matplotlibmatplotlib은 파이썬에서 데이터를 차트나 플롯으로 시각화하는 라이브러리다. matplotlib.pyplot 모듈의 함수를 이용해 간편하게 그래프를 만들고 변화를 줄 수 있다. 설치 방법 및 사용 방법pip install matplotlibimport matplotlib.pyplot as plt 숫자 입력한 개의 숫자 리스트 입력한 개의 숫자 리스트 형태로 값을 입력하면 y값으로 인식한다.x값은 기본적으로 [0, 1, 2, 3]으로 설정된다.파이썬 튜플, 넘파이 배열 형태도 가능하다.plt.show() 함수는 그래프를 화면에 나타나도록 한다.plt.plot([2,3,4,5])plt.show() 두 개의 숫자 리스트 입력두 개의 숫자 리스트 형태로 값을 입력하면 첫 번째 리스트의 ..
splitgroupby에 의해 split 된 상태를 추출할 수 있다. 그럼 tuple 형태로 그룹의 key값 value값이 추출된다.grouped = df.gorupby('team')for name, group in grouped: print(name) print(group) get_group()특정 key값을 가진 그룹의 정보만 추출할 수 있다.grouped.get_group('Devils') apply그리고 추출된 group정보에는 세 가지 유형의 apply가 가능하다aggregation: 요약된 통계정보를 추출해준다.transformation: 해당 정보를 변환해 준다.filtration: 특정 정보를 제거해서 보여주는 필터링 기능aggregation 특정 칼럼에 여러 개의 funct..