대규모 머신 러닝 활용 — AWS에서 Parallelized Modeling to HPC 인프라 매핑 2/2

빌드업웍스
7 min readMar 26, 2020
https://AWS.amazon.com/ko/

본 문서는 총 2부로 구성되어 있으며 이 글은 2부입니다.

1부 링크 : 대규모 머신 러닝 활용 — AWS에서 Parallelized Modeling to HPC 인프라 매핑 1/2

하이브리드 인프라를 사용한 모델링

하이브리드 인프라 아키텍처는 사내 서버 또는 에지 컴퓨팅 장치 엔드포인트(오프클라우드)를 클라우드 내 리소스와 함께 사용하는 것을 의미합니다. 하이브리드 아키텍처를 구현하여 최적화된 다양한 사용 사례가 있습니다. 예를 들어 이러한 아키텍처는 레거시 IT 애플리케이션 및 데이터 마이그레이션을 촉진하고, 사내 데이터 센터의 용량을 확장하는 버스트 가능한 컴퓨팅을 제공하거나, 조직에 백업 및 재해 복구 솔루션을 제공할 수 있습니다.

AWS는 사내 네트워크와 AWS 클라우드 간의 직접 연결을 지원하는 여러 서비스를 제공합니다. 하이브리드 네트워크 아키텍처는 AWS 영역에 연결하기 위해 VPN 서비스 및 AWS DX(Direct Connect)를 사용하는 경우가 많습니다. 하이브리드 네트워크 아키텍처에서는 공용 인터넷을 통해 기본 보안 프로토콜(HTTPS)을 사용하는 대신 개인 연결을 통해 Amazon S3로 데이터를 전송할 수 있습니다. Amazon S3 Transfer Acceleration 서비스를 사용하여 Amazon 네트워크 및 Edge 위치를 사용하여 전송을 완료할 수도 있습니다. AWS ID 및 액세스 관리 리소스를 구현하여 하이브리드 아키텍처의 통합 네트워크를 관리할 수 있습니다.

머신 러닝 애플리케이션과 심층 학습 애플리케이션 모두에 대해 하이브리드 아키텍처는 분석 워크플로우의 모듈화를 제공하여 애플리케이션의 런타임 효율성을 극대화하고 대기 시간을 단축할 수 있습니다. 클라우드에서 작업을 학습하면 클라우드의 무한 확장 가능한 리소스를 활용할 수 있습니다. 모델을 학습한 후에는 사내 서버 또는 에지 장치로 전송되어 추론 워크로드를 실행할 수 있습니다. 하이브리드 아키텍처는 데이터 개인 정보가 중요한 경우에도 유용합니다. 대부분의 경우 모든 원시 데이터를 클라우드에 저장하고 싶지 않을 수 있습니다. 대신 모델을 위한 사전 처리 단계를 모듈화하여 오프클라우드 기능 추출 애플리케이션을 구현하여 모델 학습에 필요한 기능만 추출할 수 있습니다. 이렇게 하면 보안되지 않은 보조 추론에 사용할 수 있는 정보의 수준이 줄어듭니다.

심층 학습 워크로드 실행 최적화에는 분석할 데이터와 컴퓨팅 용량 소스 간의 지연 시간이 제한되는 경우가 많습니다. 멀티 프로토콜 스토리지 기능과 높은 네트워크 연결을 결합하는 AWS 스토리지 게이트웨이와 같은 AWS 서비스를 사용하면 데이터 마이그레이션 또는 스토리지 계층화가 필요한 하이브리드 딥러닝 워크로드를 사용하여 성능을 최적화할 수 있습니다. 또한 데이터 소스에 가장 가까운 컴퓨팅 용량을 활용하는 작업 예약 방법을 선택하여 성능을 최적화할 수 있습니다. 자율 차량 및 동기화된 스마트 카메라에서처럼 수백만 개의 연결된 에지 장치에 AI와 심층 학습을 배포할 때는 AWS Cloud에서 모델을 생성, 학습 및 최적화한 다음 AWS IoT Greengrass를 사용하여 NVIDIA Jetson 동력 에지 장치(예:)를 참조하기 위해 배포하는 것이 좋습니다. 이 아키텍처를 통해 에지 디바이스는 실시간 데이터에서 로컬로 동작하는 동시에 모델을 관리하기 위해 클라우드를 활용하여 데이터를 클라우드로 반환하여 내구성이 뛰어난 스토리지와 지속적인 모델 최적화를 실현할 수 있습니다. AWS CodeBuild, AWS CodePipeline, Amazon CloudWatch 및 AWS Lambda와 같은 추가 AWS 서비스를 통합하여 Amazon S3 버킷을 대상으로 하는 데이터를 자동화된 CI/CD 워크플로우의 트리거로 사용할 수 있습니다. 또한 Lambda 기능을 AWS Step Functions로 설계하여 HPC 리소스가 지원하는 Amazon SageMaker 인스턴스를 관리할 수도 있습니다.

이미지 콜레이션 및 IoT 센서 스트림 캡처와 같이 메모리 집약적인 처리가 필요한 에지의 DL 또는 ML 사용 사례의 경우 AWS Snowball Edge는 특정 Amazon EC2 인스턴스 유형과 함께 클라우드 서비스를 실행할 수 있는 스토리지 에지 장치를 제공합니다.

결론

딥 러닝과 같은 머신 러닝 영역은 모델과 데이터 병렬로 이익을 얻는 계산적으로 결합된 문제를 제기하기 때문에 고성능 컴퓨팅의 방법에 특히 적합합니다. 다양한 머신 러닝 및 심층 학습 애플리케이션에 대한 I/O 프로파일은 다양하며, 관련 랜덤성은 상당한 성능 문제를 야기합니다. 컴퓨팅 계층(더 빠른 프로세서와 더 많은 코어)이 개선됨에 따라 우리는 점점 더 복잡한 알고리즘을 사용하여 더 큰 데이터 워크로드를 처리할 수 있게 되었습니다. 메타데이터 및 I/O를 여러 컴퓨팅 노드 또는 모든 컴퓨팅 노드에서 관리하는 고성능 병렬 파일 시스템의 발전으로 처리 요구를 충족할 수 있는 탄력적인 확장성이 가능해졌습니다.

규모에 맞게 머신 러닝을 수행할 때 데이터셋은 최적의 처리를 위해 데이터를 분할하기 위한 사전 처리 단계를 필요로 하는 경우가 많습니다. 일반적으로 여러 시스템에 분산된 데이터를 병렬로 패키징하는 것이 좋습니다. ML 스터디에 사용되는 HPC 클러스터에 권장되는 컴퓨팅 시스템은 데이터 세트의 크기와 실행할 계산 알고리즘의 복잡성에 따라 달라집니다. 일반적으로 컴퓨팅 집약적인 워크로드에는 GPU가 권장되고, FPGA는 전문 하드웨어 가속화를 제공하며, 추론 스터디를 실행하려면 높은 메모리 인스턴스가 권장됩니다. 머신 러닝 워크로드 실행 최적화에는 분석할 데이터와 컴퓨팅 용량 소스 간의 지연 시간을 제한하는 것이 포함됩니다.

부록

다음은 머신 러닝 클러스터에 대한 두 가지 추가 아키텍처 다이어그램입니다.

그림 2 — 기존 HPC 머신 러닝 클러스터
그림 3 — Cloud Native 머신 러닝 클러스터

[ 고지 사항 (Disclaimer) ]

본 컨텐츠는 고객의 편의를 위하여 AWS 서비스 설명을 위해 제작, 제공된 것입니다. 만약 AWS 사이트와 컨텐츠 상에서 차이나 불일치가 있을 경우 AWS 사이트 (AWS.amazon.com)가 우선합니다. 또한 AWS 사이트 상에서 한글 번역문과 영어 원문에 차이나 불일치가 있을 경우(번역의 지체로 인한 경우 등 포함), 영어 원문이 우선합니다.

본 문서는 Power Machine Learning at Scale (2019, 영문) 내용에 기반하여 작성 되었습니다.

이 문서는 정보 제공의 목적으로만 제공됩니다. 본 문서의 발행일 당시 AWS의 현재 제품 오퍼링 및 실행방법 등을 설명하며, 예고 없이 변경될 수 있습니다. 고객은 본 문서에 포함된 정보나 AWS 제품 또는 서비스의 사용을 독립적으로 평가할 책임이 있으며, 각 정보 및 제품은 명시적이든 묵시적이든 어떠한 종류의 보증 없이 “있는 그대로” 제공됩니다. 본 문서는 AWS, 그 자회사, 공급업체 또는 라이선스 제공자로부터 어떠한 보증, 표현, 계약 약속, 조건 또는 보장을 구성하지 않습니다. 고객에 대한 AWS의 책임 및 의무는 AWS 계약에 의해 관리되며 본 문서는 AWS와 고객 사이의 어떠한 계약에도 속하지 않으며 계약을 변경하지도 않습니다.

© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

빌드업웍스
빌드업웍스

Written by 빌드업웍스

클라우드 교육, 구축, 운영, 관리, 컨설팅 및 교육 리소스 디지털 퍼블리싱 : AWS 파트너, 유데미 파트너| buw.co.kr | admin@buw.co.kr | 053–954–3711

No responses yet

Write a response