GCP (GoogleCloudPlatform)
DataPipeline (데이터 파이프라인) 정리
짱구네
2025. 1. 20. 23:29
반응형
데이터 파이프라인이란?
다양한 데이터 소스에서 원시 데이터를 수집한 다음 분석을 위해 데이터 레이크 또는 데이터 웨어하우스와 같은 데이터 저장소로 이전하는 방법입니다. 데이터는 저장소로 이동하기 전에 데이터 처리 과정을 거쳐 저장되며, 이를 통해 탐색형 데이터 분석, 데이터 시각화, 머신 러닝 작업에 활용할 수 있습니다.
데이터 파이프라인 유형
데이터 파이프라인에는 일괄 처리(batch processing)와 스트리밍 데이터(streaming data)의 두 가지 주요 유형이 있습니다.
일괄 처리 (Batch Processing)
- 설명: 미리 설정된 시간에 일괄적으로 데이터를 로드하여 대용량 데이터를 처리하는 방식입니다.
- 장점: 안정성이 높습니다.
스트리밍 데이터 (Streaming Data)
- 설명: 데이터를 지속적으로 업데이트할 때 활용됩니다. 예를 들어, POS(point of Sale) 시스템은 제품의 실시간 재고 여부가 필요하기 때문에 실시간 데이터가 필요합니다.
- 장점: 지연 시간이 짧습니다.
데이터 분석 파이프라인 5단계
- CAPTURE (데이터 수집)
- 데이터 마이그레이션 도구를 활용하여 한 클라우드에서 다른 클라우드로 마이그레이션 (예: Google Cloud 스토리지 전송 서비스)
- BigQuery를 이용하여 타사 SaaS(Youtube, Google Ads, Amazon S3, Redshift 등) 데이터 수집 가능
- Pub/Sub 서비스를 사용하여 애플리케이션 실시간 데이터를 스트리밍 받을 수 있음
- PROCESS (데이터 처리)
- Dataproc: Hadoop, Spark의 클러스터를 함께 이용할 수 있으며, 일괄 처리, 쿼리, 스트리밍, 머신 러닝을 위한 오픈 소스 데이터 도구를 활용할 수 있음. 관리에 소요되는 시간과 비용을 줄여 데이터 처리에 집중 가능
- Dataprep: 데이터 분석가가 코드를 작성할 필요 없이 데이터를 처리할 수 있도록 도와주는 지능형 그래픽 사용자 인터페이스 도구
- Dataflow: 스트리밍 및 batch 데이터를 위한 서버리스 데이터 처리 서비스. Apache Beam 오픈 소스 SDK를 기반으로 한 파이프라인을 이식 가능. 스토리지를 컴퓨팅과 분리하여 원활하게 확장 가능
- STORE (저장)
- GCS: 용도에 맞는 Standard, Nearline, Coldline, Archive로 선택할 수 있으며 이미지, 동영상, 파일 등을 위한 객체 저장소
- BigQuery: 서버리스 데이터 웨어하우스. 페타바이트 규모의 데이터까지 원활하게 확장 가능
- ANALYZE (분석)
- BigQuery: SQL을 사용하여 BigQuery에서 데이터를 직접 분석 가능. Cloud Storage를 사용하는 경우에도 BigQuery로 쉽게 이동 가능
- USE (데이터 사용 및 시각화)
- 데이터 사용: 데이터 웨어하우스에 데이터가 있으면 TensorFlow, AI Platform을 통해 활용 가능
- TensorFlow: 도구, 라이브러리, 커뮤니티 리소스가 포함된 엔드 투 엔드 오픈소스 머신 러닝 플랫폼
- AI Platform: 개발자, 데이터 과학자, 데이터 엔지니어가 ML 워크플로를 간소화할 때 이용
- 데이터 시각화
- Data Studio: 손쉬운 데이터 시각화를 위해 사용
- Looker: 데이터 시각화, 임베디드 분석 기능 제공
- 데이터 사용: 데이터 웨어하우스에 데이터가 있으면 TensorFlow, AI Platform을 통해 활용 가능
- 끝 -
반응형