본문 바로가기

⭐ AWS/AWS Redshift

Amazon Redshift 구성 예제

728x90
반응형

# 아마존 Redshift를 구성하고 데이터를 분석하는 방법에 대해서 알아보자.

1. AWS Redshift란?

Redshift는 클라우드 데이터 웨어 하우스 이다. 고성능의 인스턴스를 기반으로 데이터 작업을 빠르게 수행하고, AWS 에코 시스템과 연계하여 편리하게 사용이 가능하다.

- AWS 에코 시스템이란?
분산되어있는 각각의 서비스를 하나의 시스템으로 연결되는 시스템을 에코 시스템 이라고 한다.
에코 시스템을 한글로 변역하면 생태계이다. 한마디로, 분산된 서비스를 AWS라는 하나의 생태계로 구성하여 편리하게 제공한다는 의미로 받아들이면 될 것 같다.

- Redshift의 작업 프로세스: 사용할 데이터는 S3에 저장 후 Redshift에 로그하여 데이터를 분석한다.
- 예제 파일로 샘플 데이터(미국 항공사 데이터)를 S3에 적재하고, 이를 기반으로 데이터를 분석한다.

2. Redshift를 구성 및 연결

- Redshift 서비스로 이동한다. 클러스터 생성을 클릭하여 클러스터 생성을 시작한다.

- 클러스터 구성에서 무료 평가판을 클릭하여 생성 합니다.
- 무료 평가판을 클릭하여 생성하면 VPC 및 IAM 설정등을 기본값으로 설정하여 생성이 됩니다.
- 추후에 프로덕션 버전으로 생성할때 네트워크 및 백업까지의 과정을 설정 할 수 있습니다.

- 하단에 데이터베이스 구성에서 관리 사용자 이름과 암호를 설정 후 클러스터 생성을 클릭하여 생성 합니다.

- Redshift 클러스터를 생성하고 있는 모습입니다. (시간은 최대 5분정도가 소요됩니다.)

3. Redshift 클라이언트에 연결합니다.

- Redshift 클러스터를 클릭하여 해당 클러스터로 이동합니다. 우측 상단에 Query data를 클릭하여 Redshift query editor v2를 클릭합니다. Query Edit 창을 통해 데이터를 조회하고 필터링 할 수 있습니다.

- Redshift query editor v2 를 사용한 테이블 조회 방법

4. Redshift의 Amazon Redshift Query Editor V2 사용법을 알아봅시다.

- Amazon Redshift Query Editor V2 편집기는 웹인터페이스를 사용하여 스키마, 테이블, 뷰, 함수 및 저장프로시저의 정보를 확인 할 수 있으며, 간단한 조작으로 테이블의 열을 미리보고 스키마, 테이블 또는 함수를 생성하거나 삭제가 가능 합니다.

- 간단한 SELECT 문으로 데이터를 조회해 봅시다. 기본적인 문법은 RDBMS에서 사용하는 쿼리 문법과 흡사 합니다.

#샘플 데이터를 조회가능한 간단한 SELECT 쿼리문
SELECT * FROM "dev"."public"."users"
WHERE username = 'PGL08LJI';

5. SELECT한 조회결과를 매우 간단하게 CSV파일이나 JSON으로 저장이 가능합니다.

- 조회된 결과창에서 마우스 오른쪽 버튼을 클릭하여 아래의 메뉴를 활성화 시킨뒤 JSON 및 CSV를 선택하여 내보내기를 실행 합니다.

- 아래와같은 CSV 형태로 데이터가 저장됩니다.

6. 조회결과를 시각화하기

- Redshift Query Editor V2 편집기를 통해 조회된 결과를 바로 시각화하여 표시 할 수 있습니다.

- 결과 집합을 시각화하고 PNG 또는 JPEG로 내보낸 다음 나중에 사용할 수 있도록 차트를 저장할 수 있습니다. Amazon Redshift 쿼리 편집기 V2를 사용하면 결과의 현재 위치 시각화를 수행할 수 있습니다.

- 시각화 결과가 만족스러우면 나중에 사용할 수 있도록 차트를 저장하고, 저장된 모든 차트를 폴더별로 정리할 수 있습니다. 또한 저장된 차트를 선택하거나 해당 쿼리를 다시 실행하거나 새 이미지를 내보낼 수 있습니다. 플롯을 처음부터 구성하거나 여러 프로젝트에 있는 수백 개의 차트 및 쿼리에 대한 구성을 따로 저장할 필요가 없습니다.

- 쿼리 조회 결과에서 우측 상단에 Chart를 클릭하면 시각화된 그래픽으로 결과가 표시 됩니다.

- ① : 쿼리결과에 대한 시각화를 할 수 있는 옵션값이며, ② : 설정된 옵션값을 적용하여 화면에 보여주는 시각화 그래프 입니다.

- 다양한 옵션을 적용 후 시각화 데이터 자료가 적용된 화면을 얻을 수 있습니다.

- 쿼리 결과 시각화(다양한 시각화 옵션 적용)

- 저장된 차트를 불러오기

- Redshift 서비스에서 클러스터를 구성하여 데이터를 분석하고 시각화하는 기능은 매우 강력하나 비용을 무시할수 없으니 여러가지 관점에서 고려를 해봐야 한다.

- 다음에는 Redshift와 S3와 연계하여 데이터를 분석하는 세부 방법에 대해서 알아볼 필요가 있을거 같다...

- 끝 - 

728x90
반응형