728x90
🌟 해당 글은 이전 글과 이어지니 꼭! 이전글을 읽어주시기 바랍니다. 이전 글 링크는 아래 있습니다.
Feature Engineering
Feature Engineering 이란, 기존에 존재하는 변수를 활용하여 새로운 정보를 추가로 생성하는 과정이다.
첫 번째 변환 - datetime으로 변경
Netflix의 date_added 변수를 이용하여 year_added(개봉한 연도)와 month_added(개봉한 월) 정보를 변수로 생성할 거다.
이렇게 하는 이유는 연도를 추출할 수 있고, 월을 추출할 수 있다. 기존에는 September 이런 식으로 들어가 있어서 추출하기 어려웠지만 datatime type으로 변환하면 쉬워진다.
- .to_datetime() : 시간 형식의 object 타입의 컬럼을 datetime 타입으로 변환
- .dt.year : datetime에서 연도 정보 추출
- .dt.month : datetime에서 월 정보 추출
netflix["date_added"] = pd.to_datetime(netflix['date_added'])
print(netflix["date_added"])
Netflix의 date_added 변수를 이용하여 개봉한 연도, 월 정보를 변수로 생성
- year_added 변수를 생성하여 개봉한 연도 정보 저장
- month_added 변수를 생성하여 개봉한 월 정보 저장
- .dt.year : datetime에서 연도 정보 추출
- .dt.month : datetime에서 월 정보 추출
netflix['year_added'] = netflix['date_added'].dt.year
netflix['month_added'] = netflix['date_added'].dt.month
netflix.head(3)
두 번째 - 시청 등급 정보 맵핑
시청 등급 정보는 다음 링크에서 확인할 수 있다.
https://www.primevideo.com/help/ref=atv_hp_nd_cnt?nodeId=GFGQU3WYEG6FSJFJ
# rating 변수의 값 파악
netflix['rating'].unique()
위 기호(상징)로는 우리가 쉽게 알아보기 어렵다. 그래서 해당 내용을 우리가 알아보기 쉬운 데이터로 맵핑해 주자!
시청 등급 설명표를 참고하여 Netflix의 rating 변수를 이용한 age_group 변수 생성
- netflix['age_group']를 생성하여 netflix['rating'] 값 삽입
- age_group 변수에 딕셔너리로 시청 등급에 대한 key, value 선언
- .map( ) : 사전에 정의한 내용을 변수에 적용
netflix['age_group'] = netflix['rating']
age_group = {'TV-MA': 'Adults',
'R': 'Adults',
'PG-13': 'Teens',
'TV-14': 'Young Adults',
'TV-PG': 'Older Kids',
'NR': 'Adults',
'TV-G': 'Kids',
'TV-Y': 'Kids',
'TV-Y7': 'Older Kids',
'PG': 'Older Kids',
'G': 'Kids',
'NC-17': 'Adults',
'TV-Y7-FV': 'Older Kids',
'UR': 'Adults'}
netflix['age_group'] = netflix['age_group'].map(age_group)
netflix.head(2)
'EDA' 카테고리의 다른 글
사분위 범위 및 Boxplot으로 데이터 분포 분석 (2) (0) | 2024.08.26 |
---|---|
Pandas를 이용한 기초 통계 계산 (1) (0) | 2024.08.26 |
[넷플릭스 데이터 분석 - 3] 넷플릭스 데이터 시각화(수치 시각화, 워드 클라우드) (5) | 2024.08.05 |
[넷플릭스 데이터 분석 - 1] 결측치 처리 (0) | 2024.08.05 |