전체 글

하다보니 재미있는 AI에 빠져있는 평양냉면7 문의사항: ysoil8811@gmail.com
이번 글에서 실습할 내용은 이전 글에서 다운로드한 seaborn에서 제공해 주는 타이타닉 데이터다. 해당 내용은 이전 글에서 확인할 수 있다.[Seaborn] 기본 개념 - 데이터 불러오기 [Seaborn] 기본 개념 - 데이터 불러오기Seabornseaborn은 matplotlib 기반의 시각화 라이브러리이다. 유익한 통계 기반 그래픽을 그리기 위한 고급 인터페이스를 제공한다. 설치 방법# seaborn 불러와서 sns로 사용import seaborn as sns 데이터 불러yijoon009.tistory.com   선형 회귀선 있는 산점도regplot() 함수 : 선형 회귀선이 있는 산점도x축 변수y축 변수데이터 셋axe 객체fit_reg : 선형회귀선 표시 여부선형 회귀선간단한 선형 데이터 집합에 ..
Seabornseaborn은 matplotlib 기반의 시각화 라이브러리이다. 유익한 통계 기반 그래픽을 그리기 위한 고급 인터페이스를 제공한다. 설치 방법# seaborn 불러와서 sns로 사용import seaborn as sns 데이터 불러오기seaborn 라이브러리에서 제공하는 titanic 데이터 불러오기 (kaggle에서 받은 타이타닉 데이터셋과는 다르다. 그러니 새로 받아주면 좋다.)seaborn의 load_dataset() 함수를 이용하면 된다.https://github.com/mwaskom/seaborn-data GitHub - mwaskom/seaborn-data: Data repository for seaborn examplesData repository for seaborn exam..
Matplotlib 영역을 지정하여 여러 개 그래프 적용subplot() 함수는 영역을 나눠 여러 개의 그래프를 시각화할 수 있다. 사용 방법은 다음과 같다.plt.subplot(row, column, index)  tight_layout() 함수는 모서리와 서브플롯의 모서리 사이의 여백(padding)을 설정하는 함수다. subplot()x값linspace : 몇등분할지 생각하면 된다. 기본값은 50이다.# np.linspace(0, 10) : 0부터 10까지 50등분한 결과를 배열로 반환x1 = np.linspace(0, 10)x1   # np.linspace(0, 4) : 0부터 4까지 50등분한 결과를 배열로 반환x2 = np.linspace(0, 4)x2   y값y값은 역동적인 그래프를 위한 n..
matplotlibmatplotlib은 파이썬에서 데이터를 차트나 플롯으로 시각화하는 라이브러리다. matplotlib.pyplot 모듈의 함수를 이용해 간편하게 그래프를 만들고 변화를 줄 수 있다. 설치 방법 및 사용 방법pip install matplotlibimport matplotlib.pyplot as plt 숫자 입력한 개의 숫자 리스트 입력한 개의 숫자 리스트 형태로 값을 입력하면 y값으로 인식한다.x값은 기본적으로 [0, 1, 2, 3]으로 설정된다.파이썬 튜플, 넘파이 배열 형태도 가능하다.plt.show() 함수는 그래프를 화면에 나타나도록 한다.plt.plot([2,3,4,5])plt.show()  두 개의 숫자 리스트 입력두 개의 숫자 리스트 형태로 값을 입력하면 첫 번째 리스트의 ..
splitgroupby에 의해 split 된 상태를 추출할 수 있다. 그럼 tuple 형태로 그룹의 key값 value값이 추출된다.grouped = df.gorupby('team')for name, group in grouped: print(name) print(group)  get_group()특정 key값을 가진 그룹의 정보만 추출할 수 있다.grouped.get_group('Devils')  apply그리고 추출된 group정보에는 세 가지 유형의 apply가 가능하다aggregation: 요약된 통계정보를 추출해준다.transformation: 해당 정보를 변환해 준다.filtration: 특정 정보를 제거해서 보여주는 필터링 기능aggregation 특정 칼럼에 여러 개의 funct..
Titanic 데이터셋을 사용하여 그룹화(GroupBy) 연산과 다양한 데이터 변환(transformation)을 수행하는 방법을 알아보자. 우선 간단하게 titanic 데이터셋을 확인해 보자.titanic.head()  groupby로 성별과 클래스로 묶어주고, 나이와 요금의 평균 구하기데이터프레임에서 GroupBy 연산을 통해 특정 기준으로 데이터를 그룹화할 수 있다.예를 들어, 성별(Sex)과 탑승 클래스(Pclass)를 기준으로 그룹화한 후, 각 그룹의 나이(Age)와 요금(Fare)의 평균을 계산해 보자.titanic.groupby(['Sex', 'Pclass'])[['Age', 'Fare']].mean() titanic.groupby(['Sex', 'Pclass']):titanic 데이터프레임..
loc[], iloc[].loc[]: 행 이름과 열 이름을 사용DataFrame 객체.loc[행 이름, 열 이름].iloc[]: 행 번호와 열 번호를 사용DataFrame 객체.iloc[행 번호, 열 번호]titanic.head()로 출력한 결과  loc[]import pandas as pd# .loc[] 예제names35 = titanic.loc[titanic['Age'] > 35, ['Name', 'Age']]names35.head() 코드 설명titanic['Age'] > 35: 이 부분은 조건을 설정해 준다. titanic 데이터프레임의 Age 열에서 35보다 큰 값을 가지는 행들을 선택한다. 이 조건은 불리언 시리즈를 반환한다. ['Name', 'Age']: 이 부분은 선택할 열 이름들을 지정한..
인덱싱# a 배열 생성 & 출력a = np.arange(10)**2print(a)>>> [ 0 1 4 9 16 25 36 49 64 81]# a 배열의 2번째 인덱스 출력print(a[2])>>> 4# a 배열의 2~4번 인덱스 출력print(a[2:5])>>> [ 4 9 16]# reverse : 배열의 요소 거꾸로 출력print(a[: : -1])>>> [81 64 49 36 25 16 9 4 1 0]# 0~5번에서 2Step 인덱스 출력# a[0:6:2] = a[:6:2]# 인덱스 0, 2, 4 해당하는 값에 1000 삽입a[0:6:2] = 1000print(a)>>> [1000 1 1000 9 1000 25 36 49 64 81] 인덱스 배열로 인덱싱# ..
평양냉면7
하다보니 재미있는 AI