본문 바로가기

⭐ AWS/AWS Glue

AWS Glue에서 ETL 작업 시 고려사항

# AWS Glue의 데이터 변환 ETL 작업에 대해서 고려사항을 기록한다.

1. AWS Glue → ETL → 작업을 클릭하면 아래와 같이 작업 속성 구성을 입력하는 화면이 나온다.

2. 데이터 원본을 선택하는 화면이 나온다. 데이터 원본은 AWS Glue에서 크롤링하여 저장한 데이터 라고 볼 수 있다.

- 데이터 원본을 선택 후 다음으로 넘어 간다.

3. 변환 유형 선택에서 스키마 변경을 선택 후 다음으로 넘어간다.

4. 데이터 스토어는 변환되어 저장되는 경로를 말하며 형식은 변경되어지는 데이터 형식, 그리고 대상경로는 변경된 데이터가 저장되는 경로라고 볼 수 있다.

- 데이터 카탈로그 내 테이블을 사용하고 데이터 대상을 업데이트 옵션을 사용하여 데이터 타입을 변형 후 저장해보자.

- 해야됨...

5. 마지막 아웃풋은 원본과 대상을 맵핑하여 사용자에게 보여준다.

- 여기서 고려해야할 사항은 ETL 작업에서 데이터 타입 변경 시 원본 데이터 전체를 읽어서 저장소에 증분 저장을 하는것이 아닌 전체 데이터를 변경 후 저장한다는 문제점이 있다. 데이터가 쌓일때마다 증분으로 데이터 타입을 변경하고 저장하는 것이 아닌 데이터 전체를 스케줄에 따라서 타입을 변경 하므로 저장소의 데이터는 기하 급수적으로 늘어나게 된다.

- 그래서 고려해야할 점이 위의 데이터 대상 선택에서 데이터 카탈로그 내 테이블을 사용하고 데이터 대상을 업데이트 옵션을 체크 후 변환을 수행해 보고 결과를 지켜볼 필요가 있다.