본문 바로가기

반응형

파이썬/Pandas (데이터 가공 라이브러리)

(5)
Pandas를 활용한 parquet → csv로 변환하기 # Pandas를 활용하여 parquet 형식의 파일을 csv로 변환하기 parquet 파일은 AWS Athena에서 사용하는 포맷 형식이다. AWS의 CUR 레포트나 AWS Glue 서비스를 활용할때 Athena를 사용하는데, 파일 포맷이 parquet이기 때문에 로컬에서 dbeaver등의 툴을 사용하여 테스트 할때 제약사항이 많다. 그래서 pandas를 활용하여 parquet 파일 포맷을 csv 형태로 변환하는 간단한 코드를 짜보자. 코드는 매우 간단하다. - 파이썬 코드 import pandas as pd df = pd.read_parquet('test_file.parquet') df.to_csv('test_file.csv')
Pandas 데이터 요약과 맵핑 # 학습내용 - summary - maps import pandas as pd reviews = pd.read_csv("./lib/input/wine-reviews/winemag-data-130k-v2.csv", index_col=0) # pd.set_option('max_rows', 10) print(reviews) # 데이터 요약 함수 # Pandas에는 데이터를 요약해주는 다양한 함수가 내장 되어있으며, 데이터를 더욱 빠르게 확인할 수 있도록 도움을 줍니다. # describe() 함수에 대해서 살펴보면 reviews.points.describe() # describe() 메소드는 열(세로)값에 대해 고차원적 분석 결과를 반환 합니다. # 데이터의 형태, 평균, 범위 값 등 분석에 유용한 값들을 분..
Pandas 기초 및 활용 # 학습내용 - 판다스 인덱싱 - loc와 iloc - 데이터에서 조건별 선택 import pandas as pd reviews = pd.read_csv("./lib/input/wine-reviews/winemag-data-130k-v2.csv", index_col=0) # pd.set_option('max_rows', 100) print(reviews) # 파이썬 객체에서 속성으로 엑세스를 하는 방법에서 book이라는 객체가 있고 # title이라는 속성이 있다면 이 속성에 접근하기 위해 book.title 이런식으로 접근하는 것을 뜻합니다. # Pandas DF의 열에 접근하는 방식도 이와 매우 유사 합니다. # reviews객체에 country컬럼에 액세스를 하기 위해서는 아래와 같이 입력 할 수 ..
Pandas 기초 # 학슴 내용 - 데이터 오브젝트 개념 - DataFrame - Series - 데이터 불러오기(read_csv) Creating data(데이터 만들기) pandas는 DataFrame 와 Series 라는 중심 객체를 가지고 있으며 지금부터 무엇인지 살펴 보겠습니다. DataFrame DataFrame이란? 데이터를 나타낸 표입니다. 파이썬에서 데이터를 다루기 위해서 가상의 엑셀 시트를 만든다라고 이해해주세요. Pandas 는 Numpy를 기반으로 만들어진 데이터 제어(가공, 피보팅 등도 포함) 패키지로서, 순수하게 파이썬으로 데이터를 가공하려면 매우 힘든 일을 쉽게 처리해줍니다. Series 나 Dictionary 타입을 활용하여 만들 수 있다. 그림과 같이 엑셀 시트처럼 표 형식으로 데이터를 불러..
파이썬 기본 파일 경로에서 내용 출력하기 # 파이썬 기본 파일경로를 확인하고 기본 파일경로에서 파일 내용을 출력하는 방법 1. 같은 레벨의 폴더 경로에 위치해 있어야 한다. - 아래의 캡쳐 이미지를 보면 /lib 폴더와 Pandas_data.py의 위치가 같은 레벨에 존재 하는것을 확인 할 수 있다. - 아래처럼 같은 레벨에 py 파일과 데이터가 존재해야 파일을 default경로로 인식하여 데이터를 활용 할 수 있다. - 그렇지 않으면 파일 경로를 지정해 줘야 한다. 2. 아래와 같이 Practice라는 폴더에 /lib와 pandas_data_01.py 파일이 같은 레벨에 존재한다. 이런 경우에는 ③의 경로의 데이터를 읽어 올 수 있다. 한마디로 현재 코드를 작성하고 있는 파일의 폴더를 ./ 라고 인식하고 파일 경로를 입력해 주면 된다. - 현..

728x90
반응형