본문 바로가기

⭐ AWS/AWS QuickSight

Manifest file을 이용하여 S3에서 데이터 세트 가져오는 방법

# Manifest 파일을 이용하여 S3에 저장되어 있는 데이터를 불러와 AWS QuickSight에서 시각화 하는 방법에 대해서 알아보자.

https://docs.aws.amazon.com/quicksight/latest/user/supported-manifest-file-format.html

 

Supported formats for Amazon S3 manifest files - Amazon QuickSight

For log (.clf) and extended log (.elf) files, only the format field in this section is applicable, so you can skip the other fields. If you choose to include them, their values are ignored.

docs.aws.amazon.com

# 사전정의
- 대상파일은 S3에 저장되어 있으며 파일 형식은 CSV 이다.
- 데이터 건수는 50만건 정도이고 파일의 용량은 44MB 이다.
- 파일의 이름: Online_Retail_CSV.csv, 파일의 출처는 캐글이다.
- 파일의 저장 경로: s3://athena-test-zzanggu/Online_Retail_CSV.csv 이다.

# AWS QuickSight를 Manifestfile을 사용하여 시각화 했을때 장점
- S3에 저장된 데이터를 바로 시각화를 하여 분석 할 수 있다.

1. AWS QuickSight 서비스로 이동한다.

- 아래의 화면처럼 새분석을 클릭하여 새로운 데이터 세트를 생성한다.
- 데이터 세트에서 S3를 선택을 한다.

- 데이터 세트에서 S3를 선택하면 아래와 같이 데이터 원본의 이름과 매니페스트 파일을 업로그 할 수 있는 창이 뜬다. 여기서 데이터 원본 이름과 매니페스트 파일을 작성하여 업로그하면 S3에 저장된 데이터를 바로 읽어올수 있다.

2. Manifest file을 통한 S3 데이터 읽기

- Manifest 파일을 정의하는 방법 (아래의 포멧으로 간단하게 설정 가능하다.)

{
    "fileLocations": [
        {
            "URIPrefixes": [
                "https://data_bucket.s3-ap-northeast-2.amazonaws.com", # 리전 선택
                "s3://athena-test-zzanggu/" # S3저장소 경로
            ]
        }
    ],
    "globalUploadSettings": {
        "format": "CSV" # 저장된 파일의 파일 유형 설정
    }
}

- 위의 형식으로 파일을 작성 후 JSON 확장자로 저장한다.
- 저장된 파일을 매니페스트 파일 업로드를 통하여 업로드 후 적용 시킬 수 있다.

- 모든 정보를 입력 후 연결을 클릭하면 아래와 같이 확인 창이 나온다. 여기서 데이터 편집/미리보기 및 SageMaker를 활용하여 추가적인 작업을 할 수 있다.
- 시각화 버튼을 클릭하여 불러온 데이터를 시각화를 진행한다.

3. 시각화를 수행한 후 첫 화면은 아래와 같다.

- 여기서 왼쪽의 필드목록과 아래의 시각적 객체 유형을 선택하여 원하는 데이터를 시각화 할 수 있다.

- 시각화 절차(동영상)

- 지금까지 S3에서 Manifest file을 통해 데이터를 QuickSight로 로드하여 시각화 하는 방법에 대해서 알아보았습니다.

- 끝 -