본문 바로가기

⭐ AWS/AWS Glue

데이터 분석을 위한 AWS 서비스 별 분류

# 데이터 분석을 위한 AWS 서비스별 분류에 대해서 알아보자.

1. 수집 서비스

- AWS IoT : AWS IoT는 기업이 보다 저렴하고 편하게 사물인터넷 기기를 관리하고 데이터를 취합 및 분석할 수 있는 서비스 이다.

- Kinesis Streams : Amazon Kinesis Streams는 모든 규모의 데이터 스트림을 쉽게 캡처, 처리 및 저장할 수 있는 서버리스 스트리밍 데이터 서비스입니다.
(서비스 장점 : 비교적 손쉽게 구성 가능, 관리 편의성 높음 | 서비스 단점 : 많은 자원의 사용으로 인한 높은 비용)

- AWS SQS : SQS는 처리해야 할 업무에 대한 TODO 리스트와 같은 역할을 한다. 시스템에서는 이를 메시지라고 부른다. SQS는 이러한 메시지의 저장소다. SQS는 AWS에서 관리하는 서비스이기 때문에 이 시스템이 처리 할 수 있는 메시지의 양에 대해서 걱정하지 않아도 된다. 또한 매우 저렴한 가격에 메시징 서비스를 제공한다.  
(서비스 장점 : 장애에 대한 대응성이 뛰어나고, 관리성이 우수하다 | 서비스 단점 : 다양한 기능을 활용할 수 없다. 타 서비스에 비해 느리다.)

- Kinesis Firehose : Amazon Kinesis Data Firehose는 스트리밍 데이터를 처리하고 로드하는 데 필요한 컴퓨팅, 메모리 및 네트워크 리소스를 자동으로 프로비저닝, 관리 및 확장하는 완전관리형 서비스입니다.
(서비스 장점: 비교적 손쉬운 구성 가능 | 서비스 단점 : 다중 저장경로 지정 불가능, KST 기준으로 변경 불가, 제한적인 데이터 타입 지원)

- AWS Glue : 완전 관리형 데이터 추출, 변환 및 적재(ETL) 서비스 입니다.
효율적인 비용으로 간단하게 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동할 수 있습니다.
(서비스 장점: 비교적 효율적인 비용관 간단한 인터페이스 지원 | 서비스 단점 : 크롤링작업, S3사용할경우 전제 데이터를 읽어오는 비 효율적인 동작 수행)

- AWS DirectConnect : AWS Direct Connect는 회사 내부 네트워크 혹은 기존 데이터 센터 환경의 온프레미스 IT 자원과 AWS 클라우드 자원을 전용 회선으로 연결하여, 하이브리드 환경을 구축할 수 있는 서비스 입니다.
(서비스 장점: 대역폭을 설정하여 일반 회선보다 향상된 네트워크 사양 가능 | 서비스 단점 : 작은 서비스간 연결이 많아지면 복잡해 진다.)

- Data Migration Service : AWS Database Migration Service(AWS DMS) 는 관계형 데이터베이스, 데이터 웨어하우스, NoSQL 데이터베이스 및 기타 유형의 데이터 저장소를 쉽게 마이그레이션할 수 있는 클라우드 서비스입니다. 다음을 수행할 수 있습니다.
(서비스 장점: 이기종 데이터베이스 간 복제가능, 편리한 인터페이스 | 서비스 단점: MY SQL 복제시 Partition Table 미지원 등 몇가지 제약사항 존재)
- AWS Snowball : AWS Snowball은 AWS 컴퓨팅 및 스토리지 기능을 엣지 환경으로 가져오고 AWS와 데이터를 주고 받을 수 있도록, 안전하고 견고한 디바이스를 제공하는 서비스입니다. 이 견고한 디바이스를 보통 AWS Snowball 또는 AWS Snowball Edge 디바이스라고 합니다.
(서비스 장점: 물리적으로 열악한 환경에서도 렉 마운트 장착용으로 데이터를 저장 할 수 있다.
 서비스 단점: 물리적 장비 및 연결 필요, 비용에대한 고려 필요)

2. 저장 서비스

- S3 : Amazon Simple Storage Service(Amazon S3)는 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스입니다. 모든 규모와 업종의 고객은 Amazon S3를 사용하여 데이터 레이크, 웹 사이트, 모바일 애플리케이션, 백업 및 복원, 아카이브, 엔터프라이즈 애플리케이션, IoT 디바이스, 빅 데이터 분석 등 다양한 사용 사례에서 원하는 양의 데이터를 저장하고 보호할 수 있습니다.
(서비스 장점: 높은 안정성 및 확장성, 유연한 관리, 쿼리 지원 | 서비스 단점: 검색 시간을 기준으로 비용을 평가하므로 비용을 고려 해야한다.)

- AWS Glacier : Amazon S3 Glacier는 데이터 보관 및 장기 백업을 위한 안전하고 안정적이며 비용이 매우 저렴한 Amazon S3 스토리지 클래스입니다.
(서비스 장점: 매우 안정적이며 비용이 저럼 | 서비스 단점: 느린 속도)

- AWS RDS : Amazon Relational Database Service(Amazon RDS)는 AWS 클라우드에서 관계형 데이터베이스를 더 쉽게 설치, 운영 및 확장할 수 있는 웹 서비스입니다. 이 서비스는 산업 표준 관계형 데이터베이스를 위한 경제적이고 크기 조절이 가능한 용량을 제공하고 공통 데이터베이스 관리 작업을 관리합니다.
(서비스 장점: 비교적 간단한 셋팅, 자동 스케일링 | 서비스 단점: IDC 서비를 운용하는것보다 비싼 비용)

- AWS Redshift :  Amazon Redshift는 클라우드에서 완벽하게 관리되는 페타바이트급 데이터 웨어하우스 서비스입니다. 작게는 수백 기가바이트부터 시작하여 페타바이트 이상까지 데이터를 확장할 수 있습니다. 이를 통해 데이터를 사용하여 비즈니스 및 고객에 대한 새로운 인사이트를 발굴하는 것도 가능합니다.
(서비스 장점: 페타바이트 급 정형데이터를 빠르게 분석가능 | 서비스 단점: AWS에서는 데이터 사이즈대비 처리 비용이 10%로 싸다고 하나, 페타바이트 급 데이터를 관리운용 하는 곳 외엔 비교적 높은 운용 비용이 단점)

- DynamoDB : Amazon DynamoDB는 키-값 및 문서 데이터 구조를 지원하고 Amazon Web Services 포트폴리오의 일부로 Amazon.com에서 제공하는 완전 관리형 독점 NoSQL 데이터베이스 서비스입니다.
(서비스 장점: DB 관리서비스 제공, 클러스터링가능, 백업정책, 성능 | 서비스 단점: 표준 SQL 쿼리문이 아닌 별도의 문법이 존재, 많은 러닝커브 존재)

- ElasticCache : Amazon ElastiCache는 클라우드에서 분산된 인 메모리 데이터 스토어 또는 캐시 환경을 손쉽게 설정, 관리 및 확장할 수 있는 웹 서비스입니다. 확장 가능하고 비용 효율적인 고성능 캐싱 솔루션을 제공합니다.
(서비스 장점: 캐시 환경을 손쉽게 설정 및 관리 가능 | 서비스 단점: 캐시가 어느정도 쌓이기 전까지 서비스의 부하가 증가)

3. 분석 서비스

- ElasticSearch Service : Elasticsearch는 간단한 REST 기반 API, 간단한 HTTP 인터페이스를 제공하고 스키마 없는 JSON 문서를 사용해 다양한 사용 사례에서 쉽게 시작하고 빠르게 애플리케이션을 구축할 수 있습니다.
(서비스 장점: 오픈소스 검색엔진, 커뮤니티가 잘 형성되어 있어 끊임없는 개선과 발전 가능 | 서비스 단점: 롤백과 트랙잭션 미지원, 데이터 업데이트 미지원(삭제 후 새로운 데이터 생성))

- MachineLearning : AWS는 가장 포괄적인 인공 지능(AI) 및 기계 학습 서비스, 인프라 및 구현 리소스 세트를 통해 기계 학습 채택 여정의 모든 단계를 지원합니다.
(서비스 장점: 클라우드 환경에서 관리형 머신러닝 서비스 제공 | 서비스 단점: 초보자가 접근하기 어려운 구조)

- Kinesis Analystics : Amazon Kinesis Data Analytics는 Apache Flink를 사용하여 실시간으로 스트리밍 데이터를 변환하고 분석할 수 있는 가장 쉬운 방법입니다.
(서비스 장점: 스트림만 생성하면 바로 데이터 수집이 가능, 스케일링 지원 | 서비스 단점: 스트림 리소스 제약, 분석 레코드 수를 늘리면 비용을 증가해야한다.)

- AWS EMR(Elastic Map Reduce) :  AWS에 제공해주는 완전관리형 빅데이터 플랫폼이라고 볼 수 있다. 하둡(MapReduce), Spark, Hive, Zeppelin 등 오픈소스 프레임워크를 가지고 클러스터를 쉽게 구축해주는 서비스이다.
(서비스 장점: 사용 편의성, 저렴한 비용, 안정성, 보안 | 서비스 단점: 고정 단일 데이터 흐름, 스키마, 인덱스, 고차원 언어 등 미지원, 상대적으로 낮은 성능)

- AWS Redshift :  Amazon Redshift는 클라우드에서 완벽하게 관리되는 페타바이트급 데이터 웨어하우스 서비스입니다. 작게는 수백 기가바이트부터 시작하여 페타바이트 이상까지 데이터를 확장할 수 있습니다. 이를 통해 데이터를 사용하여 비즈니스 및 고객에 대한 새로운 인사이트를 발굴하는 것도 가능합니다.
(서비스 장점: 페타바이트 급 정형데이터를 빠르게 분석가능 | 서비스 단점: AWS에서는 데이터 사이즈대비 처리 비용이 10%로 싸다고 하나, 페타바이트 급 데이터를 관리운용 하는 곳 외엔 비교적 높은 운용 비용이 단점)

- AWS Athena : Amazon Athena는 표준 SQL을 사용하여 Amazon S3(Amazon Simple Storage Service)에 있는 데이터를 직접 간편하게 분석할 수 있는 대화형 쿼리 서비스입니다.
(서비스 장점: 별도의 설치나 관리없이 바로 사용가능, 표준 SQL 문법 지원 | 서비스 단점: 쿼리 사용 회수량에 따른 비용부과, 트랙잰셕이 많으면 비용 증가 가능)

4. 시각화 서비스

- AWS QuickSight : Amazon QuickSight 는 매우 빠른 클라우드 기반 비즈니스 인텔리전스(BI) 서비스로서, 모든 직원이 데이터를 사용하여 손쉽게 시각화를 구축하고, 임시 분석을 수행하며, 비즈니스 통찰력을 신속하게 확보할 수 있게 해줍니다.
(서비스 장점: S3 및 RDS등 AWS 서비스와 손쉽게 연계 가능 | 서비스 단점: 러닝커브 존재, 데이터 시각화 후 결과값 공유가 어려움)

- AWS Kibana (오픈소스) : Kibana는 Elastic Stack을 기반으로 구축된 무료 오픈 소스 프론트엔드 애플리케이션으로, Elasticsearch에서 색인된 데이터를 검색하고 시각화하는 기능을 제공합니다.
(서비스 장점: 오픈소스로 비용이 발생하지 않고 활용가능 | 서비스 단점: 관리포인트가 많음, 버전관리 등 지속적으로 신경 써야함)