[ 고지 사항 (Disclaimer) ]
본 컨텐츠는 고객의 편의를 위하여 AWS 서비스 설명을 위해 제작, 제공된 것입니다. 만약 AWS 사이트와 컨텐츠 상에서 차이나 불일치가 있을 경우 AWS 사이트 (AWS.amazon.com)가 우선합니다. 또한 AWS 사이트 상에서 한글 번역문과 영어 원문에 차이나 불일치가 있을 경우(번역의 지체로 인한 경우 등 포함), 영어 원문이 우선합니다.
본 문서는 Building Big Data Storage Solutions (Data Lakes) for Maximum Flexibility(2017, 영문) 내용에 기반하여 작성 되었습니다.
이 문서는 정보 제공의 목적으로만 제공됩니다. 본 문서의 발행일 당시 AWS의 현재 제품 오퍼링 및 실행방법 등을 설명하며, 예고 없이 변경될 수 있습니다. 고객은 본 문서에 포함된 정보나 AWS 제품 또는 서비스의 사용을 독립적으로 평가할 책임이 있으며, 각 정보 및 제품은 명시적이든 묵시적이든 어떠한 종류의 보증 없이 “있는 그대로” 제공됩니다. 본 문서는 AWS, 그 자회사, 공급업체 또는 라이선스 제공자로부터 어떠한 보증, 표현, 계약 약속, 조건 또는 보장을 구성하지 않습니다. 고객에 대한 AWS의 책임 및 의무는 AWS 계약에 의해 관리되며 본 문서는 AWS와 고객 사이의 어떠한 계약에도 속하지 않으며 계약을 변경하지도 않습니다.
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
본 문서는 총 3부로 구성되어 있으며 이 글은 3부입니다.
데이터 자산 변환
데이터 레이크의 핵심 가치 중 하나는 기본 형식이 무엇이든 조직의 모든 데이터 자산을 수집하는 지점과 저장소라는 점입니다. 이를 통해 신속한 데이터 수집, 데이터 중복 및 무분별한 데이터 확장 제거, 중앙 집중식 거버넌스 및 관리를 수행할 수 있습니다. 데이터 자산을 수집한 후에는 다양한 데이터 분석 및 처리 도구가 사용할 표준화된 형식으로 변환해야 합니다.
다양한 기술과 책임을 가진 가장 많은 사용자가 데이터를 ‘민주화’하고 데이터 레이크를 사용할 수 있도록 하는 열쇠는 데이터 자산을 효율적인 애드혹 SQL 쿼리를 위한 형식으로 변환하는 것입니다. 앞서 설명한 것처럼 AWS를 기반으로 데이터 레이크를 구축할 때 로그 기반 데이터 자산을 Parquet 형식으로 변환하는 것이 좋습니다. AWS는 이를 빠르고 효율적으로 달성할 수 있는 여러 서비스를 제공합니다.
데이터 자산을 변환하는 방법은 여러 가지가 있으며, “최상의” 방법은 개별 선호도, 기술 세트 및 사용 가능한 툴로 귀결되는 경우가 많습니다. 데이터 레이크가 AWS 서비스를 기반으로 구축되면 데이터 변환에 사용할 수 있는 다양한 툴과 서비스가 제공되므로 가장 편리한 방법과 툴을 선택할 수 있습니다. 데이터 레이크는 원래 멀티 테넌트(Multi-tenant)이므로 서로 다른 툴을 사용하여 여러 데이터 변환 작업을 동시에 실행할 수 있습니다.
Amazon S3 기반 데이터 레이크의 Parquet으로 데이터 자산을 변환하는 가장 일반적이고 간단한 두 가지 방법은 Amazon EMR 클러스터를 사용합니다. 첫 번째 방법은 Amazon S3의 원시 데이터 자산을 입력으로 사용하여 Hive가 설치된 EMR 클러스터를 생성하고, 이러한 데이터 자산을 Hive 테이블로 변환한 다음, 이러한 Hive 테이블을 Parquet 형식으로 Amazon S3에 다시 쓰는 것입니다. 두 번째, 관련 방법은 Amazon EMR에서 스파크를 사용하는 것입니다. 이 방법을 사용하면 PySpark 코드 20줄만 사용하여 일반적인 변환을 수행할 수 있습니다.
Amazon S3 기반 데이터 레이크의 세 번째 단순하고 단순한 데이터 변환 방법은 AWS Glue를 사용하는 것입니다. AWS Glue는 Amazon S3에 저장된 데이터와 함께 직접 사용할 수 있는 AWS 완전 관리 추출, 변환 및 로드(ETL) 서비스입니다.
AWS Glue는 어렵고 시간이 많이 걸리는 데이터 검색, 변환, 매핑 및 작업 스케줄링 작업을 단순화하고 자동화합니다. AWS Glue는 데이터 소스를 이해하고, 분석을 위해 이러한 데이터 자산을 변환 및 준비하고, S3 데이터 원본에서 S3 대상으로 안정적으로 로드할 수 있도록 도와주는 사용이 간편한 콘솔을 통해 데이터 자산을 변환 및 이동하는 과정을 안내합니다.
AWS Glue는 데이터 레이크의 S3 버킷에 있는 원시 데이터 자산을 자동으로 수집하고, 데이터 형식을 식별한 다음, 데이터 흐름에 시간을 할애하지 않도록 스키마와 변환을 제안합니다. 그런 다음 Python, Spark, Git 및 즐겨찾는 IDE(Integrated Developer Environment)와 같은 툴과 기술을 사용하여 이러한 변환을 편집한 다음 데이터 레이크의 다른 AWS Glue 사용자와 공유할 수 있습니다. AWS Glue의 유연한 작업 스케줄러는 트리거에 대한 응답 또는 AWS Lambda 이벤트에 대한 응답으로 데이터 변환 흐름을 반복적으로 실행하도록 설정할 수 있습니다.
AWS Glue는 하드웨어 리소스를 자동으로 투명하게 프로비저닝하고 Apache Spark 노드에서 ETL 작업을 배포하여 데이터 볼륨 증가에 따라 ETL 실행 시간이 일정하게 유지됩니다. AWS Glue는 데이터 레이크 작업의 실행을 올바른 순서로 조정하고, 실패한 작업을 자동으로 다시 시도합니다. AWS Glue를 사용하면 관리할 서버나 클러스터가 없으며 ETL 작업에 사용되는 리소스에 대해서만 비용을 지불할 수 있습니다.
내부 쿼리
AWS를 기반으로 구축된 데이터 레이크의 가장 중요한 기능 중 하나는 클러스터를 프로비저닝 및 관리하지 않고도 데이터 자산을 인플레이스 변환 및 쿼리할 수 있는 기능입니다. 따라서 데이터를 복사하여 별도의 분석 플랫폼 또는 데이터 웨어하우스에 로드하지 않고도 Amazon S3에 저장된 데이터 자산에서 직접 정교한 분석 쿼리를 실행할 수 있습니다. 추가 인프라 없이 S3 데이터를 쿼리할 수 있으며 실행 중인 쿼리에 대해서만 비용을 지불할 수 있습니다. 따라서 SQL을 사용할 수 있는 모든 데이터 레이크 사용자가 방대한 양의 구조화되지 않은 데이터를 분석할 수 있으며, ETL 프로세스를 수행하고, Hadoop 클러스터 또는 데이터 웨어하우스를 생성하고, 변환된 데이터를 이러한 환경에 로드한 다음 쿼리 작업을 실행하는 기존 방식보다 훨씬 더 비용 효율적입니다. AWS Glue는 앞 절에서 설명한 대로 데이터 검색 및 ETL 기능을 제공하며 Amazon Athena 및 Amazon Redshift Spectrum은 인플레이스 쿼리 기능을 제공합니다.
Amazon Athena
Amazon Athena는 표준 SQL을 사용하여 Amazon S3에서 데이터를 쉽게 분석할 수 있는 대화형 쿼리 서비스입니다. AWS Management Console에서 몇 가지 작업을 수행하면 데이터 레이크에 저장된 데이터 자산에 대해 Athena를 직접 사용하고 표준 SQL을 사용하여 임시 쿼리를 실행하고 몇 초 내에 결과를 얻을 수 있습니다.
Athena는 서버가 없으므로 설정하거나 관리할 인프라가 없으며 사용자는 실행 중인 쿼리 동안 검색된 데이터 자산 볼륨에만 비용을 지불합니다.
Athena는 자동으로 실행되는 쿼리를 병렬로 확장하므로 대규모 데이터 세트와 복잡한 쿼리에서도 결과가 빠릅니다. Athena를 사용하여 비정형, 반정형 및 구조화된 데이터 세트를 처리할 수 있습니다. 지원되는 데이터 자산 형식에는 CSV, JSON 또는 Apache Parquet 및 Apache ORC와 같은 열 데이터 형식이 포함됩니다. Athena는 Amazon QuickSight와 통합되어 쉽게 시각화할 수 있습니다. 또한 이러한 툴을 JDBC 드라이버로 Athena에 연결하여 타사 보고 및 비즈니스 인텔리전스 툴과 함께 사용할 수도 있습니다.
Amazon Redshift Spectrum
Amazon S3 기반 데이터 레이크에서 데이터 자산을 인플레이스 쿼리하는 두 번째 방법은 Amazon Redshift Spectrum을 사용하는 것입니다. Amazon Redshift는 Amazon S3의 데이터 자산과 함께 사용할 수 있는 대규모의 관리형 데이터 웨어하우스 서비스입니다. 그러나 쿼리를 실행하려면 먼저 데이터 자산을 Amazon Redshift에 로드해야 합니다. 반면 Amazon Redshift Spectrum을 사용하면 Amazon S3 기반 데이터 레이크에 최대 엑사바이트 저장되는 방대한 양의 데이터에 대해 직접 Amazon Redshift SQL 쿼리를 실행할 수 있습니다. Amazon Redshift Spectrum은 정교한 쿼리 최적화를 적용하여 수천 개의 노드 간에 프로세싱을 확장하므로 대용량 데이터 세트와 복잡한 쿼리에서도 결과가 빠릅니다. Redshift Spectrum은 CSV, TSV, Parquet, Sequence 및 RCFile을 포함하여 데이터 레이크에 저장된 다양한 데이터 자산을 직접 쿼리할 수 있습니다. Redshift Spectrum은 Amazon Redshift의 SQL 구문을 지원하므로 현재 사용하는 것과 동일한 BI 도구를 사용하여 정교한 쿼리를 실행할 수 있습니다. 또한 자주 액세스하는 데이터 자산에 대해 Amazon Redshift에 로컬로 저장된 쿼리와 Amazon S3에 저장된 전체 데이터 세트에 이르는 쿼리를 유연하게 실행할 수 있습니다. Amazon Athena와 Amazon Redshift는 공통 데이터 카탈로그와 공통 데이터 형식을 공유하므로 동일한 데이터 자산에 대해 Athena 및 Redshift Spectrum을 모두 사용할 수 있습니다. 일반적으로 애드혹 데이터 검색 및 SQL 쿼리에 Athena를 사용한 다음 Redshift Spectrum을 사용하여 많은 수의 데이터 레이크 사용자가 동시 BI 및 보고 워크로드를 실행하고자 하는 보다 복잡한 쿼리 및 시나리오를 수행할 수 있습니다.
광범위한 분석 포트폴리오
AWS를 기반으로 구축된 데이터 레이크의 장점은 데이터 자산이 대규모 확장성, 저비용, 성능의 단일 플랫폼에서 수집 및 저장되고 AWS Glue, Amazon Athena 및 Amazon Redshift Spectrum과 같은 혁신적인 AWS 서비스를 사용하여 데이터 검색, 변환 및 SQL 쿼리를 모두 적절하게 수행할 수 있다는 것입니다. 또한 Amazon S3와 직접 통합하여 다양한 수의 정교한 분석, 기계 학습 및 인공지능(AI) 데이터 처리 파이프라인을 생성할 수 있는 다양한 AWS 서비스가 있습니다. 따라서 데이터를 로드하고 분석을 수행하기 전에 하드웨어를 프로비저닝하고 복잡한 소프트웨어 패키지를 설치 및 구성할 필요 없이 공통 데이터 자산에 대해 단일 플랫폼에서 광범위한 분석 비즈니스 과제를 신속하게 해결할 수 있습니다. 게다가, 소비하는 것에 대해서만 지불합니다. 다음은 Amazon S3 기반 데이터 레이크의 데이터 자산과 함께 사용할 수 있는 가장 일반적인 AWS 서비스에 대해 설명합니다.
Amazon EMR
Amazon EMR은 비용 효율적인 방식으로 데이터를 빠르고 쉽게 처리하는 데 사용되는 고도로 분산된 컴퓨팅 프레임워크입니다. Amazon EMR은 개방형 소스 프레임워크인 Apache Hadoop을 사용하여 탄력적으로 크기가 조정 가능한 EC2 인스턴스 클러스터 전체에 데이터 및 처리를 배포하고 Hive, Pig, Spark 및 HBase와 같은 모든 일반적인 Hadoop 도구를 사용할 수 있습니다. Amazon EMR은 Hadoop 클러스터의 인프라 및 소프트웨어 프로비저닝, 관리 및 유지 보수와 관련된 모든 작업을 수행하며 Amazon S3와 직접 통합됩니다. Amazon EMR을 사용하면 무한정 가동 상태를 유지하는 영구 클러스터를 실행하거나 분석이 완료된 후 종료되는 임시 클러스터를 시작할 수 있습니다. 두 시나리오 모두 클러스터 가동 시간에만 비용을 지불합니다. Amazon EMR은 범용, 컴퓨팅, 메모리 및 스토리지 I/O 인스턴스(예: T2, C4, X1 및 I3) 및 모든 Amazon EC2 가격 옵션(온디맨드, 예약 및 스폿)을 포함하는 다양한 EC2 인스턴스 유형을 지원합니다. EMR 클러스터(작업 흐름이라고도 함)를 시작할 때 프로비저닝할 EC2 인스턴스 수와 유형을 선택합니다. 다양한 비즈니스 라인과 많은 수의 사용자를 보유한 기업은 단일 데이터 레이크 솔루션을 구축하고 데이터 자산을 Amazon S3에 저장한 다음 여러 EMR 클러스터를 회전하여 멀티 테넌트 방식으로 데이터 자산을 공유할 수 있습니다.
Amazon Machine Learning
기계 학습은 또 다른 중요한 데이터 레이크 사용 사례입니다. Amazon Machine Learning(ML)은 누구나 예측 분석 및 기계 학습 기술을 쉽게 사용할 수 있는 데이터 레이크 서비스입니다. Amazon ML은 복잡한 알고리즘과 기술을 배우지 않고도 ML 모델을 만드는 과정을 안내하는 시각화 도구와 마법사를 제공합니다. 모델이 준비되면 Amazon ML을 사용하면 API 작업을 사용하여 응용프로그램에 대한 예측을 쉽게 얻을 수 있습니다. 맞춤형 예측 생성 코드를 구현하거나 인프라를 관리할 필요가 없습니다. Amazon ML은 Amazon S3, Amazon Redshift 또는 Amazon RDS에 저장된 데이터를 기반으로 ML 모델을 생성할 수 있습니다. 내장 마법사는 데이터를 대화식으로 탐색하고, ML 모델을 교육하고, 모델 품질을 평가하고, 비즈니스 목표에 맞게 출력을 조정하는 단계를 안내합니다. 모델이 준비되면 일괄적으로 또는 지연 시간이 짧은 실시간 API를 사용하여 예측을 요청할 수 있습니다. 본 논문 앞부분에서 논의한 바와 같이, AWS를 기반으로 구축된 데이터 레이크는 Amazon Glacier에 비용 효율적으로 저장할 수 있는 것보다 Amazon ML과 대용량 과거 데이터 세트를 결합하여 기계 학습 능력을 크게 향상시키지만, 새로운 ML 모델을 교육하는 데 필요할 때는 쉽게 불러올 수 있습니다.
Amazon QuickSight
Amazon QuickSight는 매우 빠르고 사용하기 쉬운 비즈니스 분석 서비스로, 언제 어디서나 데이터 레이크에 저장된 데이터 자산에서 시각화를 구축하고, 임시 분석을 수행하고, 비즈니스 통찰력을 신속하게 얻을 수 있습니다. Amazon QuickSight를 사용하여 Amazon Redshift, Amazon RDS, Amazon Aurora, Amazon Athena 및 Amazon S3와 같은 AWS 데이터 소스를 원활하게 검색하고 이러한 데이터 소스 및 데이터 자산에 연결하여 몇 분 내에 이 데이터로부터 통찰력을 얻을 수 있습니다. Amazon QuickSight를 통해 데이터 레이크를 사용하는 조직은 수십만 명의 사용자로 비즈니스 분석 기능을 원활하게 확장할 수 있습니다. 강력한 SPICE(In-Memory Engine)를 사용하여 빠르고 응답성이 뛰어난 쿼리 성능을 제공합니다.
Amazon Rekognition
또 다른 혁신적인 데이터 레이크 서비스는 딥러닝에 의해 구동되는 완전히 관리되는 이미지 인식 서비스인 Amazon Rekognition입니다. Amazon S3에 저장된 이미지 데이터 자산에 대해 실행됩니다. Amazon Reknition은 수년 동안 Amazon의 Computer Vision 팀에 의해 구축되었으며, 이미 매일 수십억 개의 이미지를 분석합니다. Amazon Rekognition 사용하기 쉬운 API는 수천 개의 개체와 장면을 감지하고, 얼굴을 분석하고, 두 개의 얼굴을 비교하여 유사성을 측정하고, 얼굴 집합에서 얼굴을 확인합니다. Amazon Reknition을 사용하면 이미지의 시각적 내용을 기반으로 검색하는 애플리케이션을 쉽게 구축하고, 얼굴 특성을 분석하여 인구 통계를 식별하고, 보안 얼굴 기반 검증을 구현하는 등의 작업을 수행할 수 있습니다. Amazon Rekognition은 규모에 맞게 이미지를 분석하도록 제작되었으며 Amazon S3에 저장된 데이터 자산과 AWS Lambda 및 기타 주요 AWS 서비스와 원활하게 통합됩니다.
이는 AWS를 기반으로 구축된 데이터 레이크와 통합할 수 있는 강력한 데이터 처리 및 분석 툴의 몇 가지 예에 불과합니다. 자세한 예와 데이터 레이크 사용자가 사용할 수 있는 혁신적인 AWS 서비스의 최신 목록은 AWS 웹 사이트를 참조하시기 바랍니다.
미래의 데이터 레이크 증명
AWS를 기반으로 구축된 데이터 레이크는 광범위한 비즈니스 분석 과제를 즉시 해결하고 비즈니스에 신속하게 가치를 제공할 수 있습니다. 그러나 비즈니스 요구사항은 끊임없이 발전하고 있으며, AWS와 분석 파트너 에코시스템은 빠르게 발전하고 있으며, 비즈니스 및 데이터 레이크의 사용자가 시간이 지남에 따라 더 많은 경험과 분석의 정교함을 달성함에 따라 새로운 서비스와 기능을 추가하고 있습니다. 따라서 필요에 따라 데이터 레이크가 원활하고 중단 없이 진화할 수 있는 것이 중요합니다.
AWS는 사실상 무제한 확장성 및 잘 정의된 API를 갖춘 플랫폼에서 모든 비즈니스 데이터 자산을 수집 및 저장함으로써 조직과 함께 성장하는 표준 스토리지 솔루션을 통해 데이터 레이크를 미래로 보호하며 다양한 데이터 처리 툴과 통합합니다. 이를 통해 인프라 제한이나 장벽 없이 필요에 따라 데이터 레이크에 새로운 기능을 추가할 수 있습니다. 또한 데이터 레이크 자산에 대한 신속한 변화를 위한 분석 실험을 수행하여 새로운 처리 방법과 툴을 신속하게 탐색한 다음, 새로운 인프라를 구축하거나 데이터를 복제 및 또는 마이그레이션할 필요 없이 유망한 솔루션을 운영 환경으로 확장할 수 있습니다. 마지막으로, AWS를 기반으로 구축된 데이터 레이크를 통해 데이터 자산을 중심으로 비즈니스를 발전시키고, 이러한 데이터 자산을 사용하여 제한 없이 보다 빠르고 신속하게 비즈니스 가치와 경쟁 차별화를 실현할 수 있습니다.
AWS는 IT 인프라 비용을 절감하고 기업의 핵심가치에 더욱 집중할 수 있도록 합니다.
AWS에 대한 자세한 문의사항은 여기를 눌러 주세요.
빌드업웍스는 AWS 컨설팅 파트너로 고객 비즈니스를 최우선으로 하며 고객의 클라우드의 성공적인 시작과 운영을 지원합니다.