PandasPandas는 Python에서 널리 사용되는 데이터 분석 라이브러리로, 다양한 형식의 데이터를 쉽게 불러오고 처리할 수 있다. 그중 가장 자주 사용하는 함수 중 하나는 read_csv로 CSV 파일을 읽을 때 사용된다. 하지만 이 함수는 데이터를 즉시 메모리에 로딩하므로, 물리적 메모리보다 큰 파일을 읽는 데는 한계가 있다. 예를 들어, 64GB의 메모리를 가진 로컬 PC에서 500GB 크기의 CSV 파일을 처리하는 경우, 단순하게 read_csv로 불러오는 것은 불가능하다. 예전에는 500GB를 한 땀 한 땀 자르기도 했는데 더 스마트한 방법이 있다.nrows, chunksizePandas는 이러한 문제를 해결하기 위해 일부 데이터를 로딩하거나, 데이터를 나누어 처리할 수 있는 옵션을 제공한..
프로그래밍 언어/Python
pytorch 강의를 듣기 앞서 환경세팅 강의를 듣고있는데 Pytorch를 설치할때 GPU가 있고 없고에 따라서 설치하는게 달랐다. 나는 일단 맥북 에어 M1칩을 사용하고있어서 구글에 검색해보니까 아래 블로그들을 참고해서 MPS 활성화까지는 성공했다. (import torch cu 쳤을때 아무 에러 없이 다음 코드 입력창이 나오는것까지 확인했다.) [PyTorch] 💻 맥북 에어 M1칩에서 GPU 사용하기(MPS 장치 활용) for 머신러닝 학습작년 초에 Pytorch를 이용해 딥러닝 모델을 학습시킬 때 겪었던 문제가 있었다. 필자는 macOS intel칩 데스크톱과 macOS m1칩 맥북 에어 유저였는데, 엔비디아에서 macOS에 대한 cuda지원을 중단해서, GPU를velog.io M1(App..
📌 문제 발생새로운 Conda 가상환경을 만들어 활성화했지만, which python 명령어를 실행하면 계속 기본 파이썬 경로인 /usr/bin/python3이 나오는 문제가 발생했다. conda로 새로운 가상 환경을 만들어주고 활성화를 했는데 python 경로가 기본 파이썬 경로로 나오는 문제가 발생했다.원래 conda 가상환경이 활성화된 상태에서 which python 명령어를 실행하면 가상환경 내의 Python 경로를 출력해야 한다.그런데 계속 기존 파이썬 기본 경로인 /usr/bin/python3이 나오는 에러가 있었다. green ~ conda activate langchain(langchain) green ~ (langchain) green ~ which python..
이번 글에서 실습할 내용은 이전 글에서 다운로드한 seaborn에서 제공해 주는 타이타닉 데이터다. 해당 내용은 이전 글에서 확인할 수 있다.[Seaborn] 기본 개념 - 데이터 불러오기 [Seaborn] 기본 개념 - 데이터 불러오기Seabornseaborn은 matplotlib 기반의 시각화 라이브러리이다. 유익한 통계 기반 그래픽을 그리기 위한 고급 인터페이스를 제공한다. 설치 방법# seaborn 불러와서 sns로 사용import seaborn as sns 데이터 불러yijoon009.tistory.com 선형 회귀선 있는 산점도regplot() 함수 : 선형 회귀선이 있는 산점도x축 변수y축 변수데이터 셋axe 객체fit_reg : 선형회귀선 표시 여부선형 회귀선간단한 선형 데이터 집합에 ..
Seabornseaborn은 matplotlib 기반의 시각화 라이브러리이다. 유익한 통계 기반 그래픽을 그리기 위한 고급 인터페이스를 제공한다. 설치 방법# seaborn 불러와서 sns로 사용import seaborn as sns 데이터 불러오기seaborn 라이브러리에서 제공하는 titanic 데이터 불러오기 (kaggle에서 받은 타이타닉 데이터셋과는 다르다. 그러니 새로 받아주면 좋다.)seaborn의 load_dataset() 함수를 이용하면 된다.https://github.com/mwaskom/seaborn-data GitHub - mwaskom/seaborn-data: Data repository for seaborn examplesData repository for seaborn exam..
Matplotlib 영역을 지정하여 여러 개 그래프 적용subplot() 함수는 영역을 나눠 여러 개의 그래프를 시각화할 수 있다. 사용 방법은 다음과 같다.plt.subplot(row, column, index) tight_layout() 함수는 모서리와 서브플롯의 모서리 사이의 여백(padding)을 설정하는 함수다. subplot()x값linspace : 몇등분할지 생각하면 된다. 기본값은 50이다.# np.linspace(0, 10) : 0부터 10까지 50등분한 결과를 배열로 반환x1 = np.linspace(0, 10)x1 # np.linspace(0, 4) : 0부터 4까지 50등분한 결과를 배열로 반환x2 = np.linspace(0, 4)x2 y값y값은 역동적인 그래프를 위한 n..
matplotlibmatplotlib은 파이썬에서 데이터를 차트나 플롯으로 시각화하는 라이브러리다. matplotlib.pyplot 모듈의 함수를 이용해 간편하게 그래프를 만들고 변화를 줄 수 있다. 설치 방법 및 사용 방법pip install matplotlibimport matplotlib.pyplot as plt 숫자 입력한 개의 숫자 리스트 입력한 개의 숫자 리스트 형태로 값을 입력하면 y값으로 인식한다.x값은 기본적으로 [0, 1, 2, 3]으로 설정된다.파이썬 튜플, 넘파이 배열 형태도 가능하다.plt.show() 함수는 그래프를 화면에 나타나도록 한다.plt.plot([2,3,4,5])plt.show() 두 개의 숫자 리스트 입력두 개의 숫자 리스트 형태로 값을 입력하면 첫 번째 리스트의 ..
splitgroupby에 의해 split 된 상태를 추출할 수 있다. 그럼 tuple 형태로 그룹의 key값 value값이 추출된다.grouped = df.gorupby('team')for name, group in grouped: print(name) print(group) get_group()특정 key값을 가진 그룹의 정보만 추출할 수 있다.grouped.get_group('Devils') apply그리고 추출된 group정보에는 세 가지 유형의 apply가 가능하다aggregation: 요약된 통계정보를 추출해준다.transformation: 해당 정보를 변환해 준다.filtration: 특정 정보를 제거해서 보여주는 필터링 기능aggregation 특정 칼럼에 여러 개의 funct..