Azure Databricks를 사용한 최신 분석 아키텍처

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

솔루션 아이디어

이 문서는 솔루션 아이디어입니다. 잠재적인 사용 사례, 대체 서비스, 구현 고려 사항 또는 가격 책정 지침과 같은 추가 정보로 콘텐츠를 확장하려면 GitHub 피드백을 제공하여 알려주세요.

이 솔루션은 최신 데이터 아키텍처를 간략하게 설명합니다. Azure Databricks는 솔루션의 핵심을 형성합니다. 이 플랫폼은 Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics 및 Power BI와 같은 다른 서비스와 원활하게 작동합니다.

Apache® 및 Apache Spark™는 미국 및/또는 기타 국가에서 Apache Software Foundation의 등록 상표 또는 상표입니다. 이러한 표시의 사용은 Apache Software Foundation에 의한 보증을 암시하지 않습니다.

아키텍처

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

  1. Azure Databricks는 Azure Event Hubs에서 원시 스트리밍 데이터를 수집합니다.

  2. Data Factory는 원시 일괄 처리 데이터를 Data Lake Storage Gen2로 로드합니다.

  3. 데이터 스토리지의 경우:

    • Data Lake Storage Gen2는 구조화, 비정형 및 반구조화와 같은 모든 형식의 데이터를 보관합니다. 일괄 처리 및 스트리밍 데이터도 저장합니다.

    • Delta Lake는 데이터 레이크의 큐레이팅된 계층을 형성합니다. 구체화된 데이터를 오픈 소스 형식으로 저장합니다.

    • Azure Databricks는 데이터를 계층으로 구성하는 medallion 아키텍처와 잘 작동합니다.

      • Bronze: 원시 데이터를 보유합니다.
      • Silver: 정리되고 필터링된 데이터를 포함합니다.
      • Gold: 비즈니스 분석에 유용한 집계된 데이터를 저장합니다.
  4. 분석 플랫폼은 서로 다른 일괄 처리 및 스트리밍 원본에서 데이터를 수집합니다. 데이터 과학자는 다음 작업에 이 데이터를 사용합니다.

    • 데이터 준비.
    • 데이터 살펴보기.
    • 모델 준비.
    • 모델 학습.

    MLflow는 데이터 과학 코드 실행에서 매개 변수, 메트릭 및 모델 추적을 관리합니다. 코딩 가능성은 유연합니다.

    • 코드는 SQL, Python, R 및 Scala에 있을 수 있습니다.
    • 코드는 미리 설치되고 최적화된 Koalas, Pandas 및 scikit-learn과 같은 인기 있는 오픈 소스 라이브러리 및 프레임워크를 사용할 수 있습니다.
    • 실무자는 단일 노드 및 다중 노드 컴퓨팅 옵션을 사용하여 성능 및 비용을 최적화할 수 있습니다.
  5. 기계 학습 모델은 다음과 같은 여러 형식으로 사용할 수 있습니다.

    • Azure Databricks는 MLflow 모델 레지스트리에 모델에 대한 정보를 저장합니다. 레지스트리를 사용하면 일괄 처리, 스트리밍 및 REST API를 통해 모델을 사용할 수 있습니다.
    • 이 솔루션은 Azure Machine Learning 웹 서비스 또는 AKS(Azure Kubernetes Service)에 모델을 배포할 수도 있습니다.
  6. 데이터와 함께 작동하는 서비스는 일관성을 보장하기 위해 단일 기본 데이터 원본에 연결합니다. 예를 들어 사용자는 Azure Databricks SQL Analytics를 사용하여 데이터 레이크에서 SQL 쿼리를 실행할 수 있습니다. 이 서비스는 다음과 같은 일을 합니다.

  7. Power BI는 통합 데이터 플랫폼에서 분석 및 기록 보고서 및 대시보드를 생성합니다. 이 서비스는 Azure Databricks로 작업할 때 다음 기능을 사용합니다.

  8. 사용자는 최적화된 Synapse 커넥터를 통해 데이터 레이크에서 Azure Synapse로 Gold 데이터 세트를 내보낼 수 있습니다. Azure Synapse의 SQL 풀은 데이터 웨어하우징 및 컴퓨팅 환경을 제공합니다.

  9. 솔루션은 협업, 성능, 안정성, 거버넌스 및 보안을 위해 Azure 서비스를 사용합니다.

    • Microsoft Purview는 데이터 자산 전반에 걸쳐 데이터 검색 서비스, 중요한 데이터 분류 및 거버넌스 인사이트를 제공합니다.

    • Azure DevOps는 CI/CD(연속 통합 및 지속적인 배포) 및 기타 통합 버전 제어 기능을 제공합니다.

    • Azure Key Vault는 비밀, 키 및 인증서를 안전하게 관리합니다.

    • Microsoft Entra ID는 Azure Databricks 사용자를 위한 SSO(Single Sign-On)를 제공합니다. Azure Databricks는 다음 작업에 대해 Microsoft Entra ID를 사용하여 자동화된 사용자 프로비저닝을 지원합니다.

      • 새 사용자를 만듭니다.
      • 각 사용자에게 액세스 수준 할당.
      • 사용자 제거 및 액세스 거부.
    • Azure Monitor는 Azure 리소스 원격 분석을 수집하고 분석합니다. 이 서비스는 문제를 사전에 식별하여 성능과 안정성을 최대화합니다.

    • Azure Cost Management 및 청구는 Azure 워크로드에 대한 재무 거버넌스 서비스를 제공합니다.

구성 요소

이 솔루션은 다음 구성 요소를 사용합니다.

핵심 구성 요소

  • Azure Databricks는 데이터 분석 플랫폼입니다. 완전 관리형 Spark 클러스터는 여러 원본의 대규모 데이터 스트림을 처리합니다. Azure Databricks는 구조가 없는 데이터 집합을 정리하고 변환합니다. 처리된 데이터를 작동 데이터베이스 또는 데이터 웨어하우스의 구조화된 데이터와 결합합니다. 또한 Azure Databricks는 확장 가능한 기계 학습 및 딥 러닝 모델을 학습하고 배포합니다.

  • Event Hubs는 빅 데이터 스트리밍 플랫폼입니다. PaaS(Platform as a Service)로서 이 이벤트 수집 서비스는 완전히 관리됩니다.

  • Data Factory는 하이브리드 데이터 통합 서비스입니다. 완전 관리형 서버리스 솔루션을 사용하여 데이터 변환 워크플로를 만들고 예약하며 오케스트레이션할 수 있습니다.

  • Data Lake Storage Gen2는 고성능 분석 워크로드를 위한 확장성 있고 안전한 데이터 레이크입니다. 이 서비스는 수백 기가비트의 처리량을 유지하면서 수 페타바이트의 정보를 관리할 수 있습니다. 데이터는 정형, 반정형 또는 비정형일 수 있습니다. 일반적으로 로그, 파일 및 미디어와 같은 여러 가지 유형이 다른 원본에서 제공됩니다.

  • Azure Databricks SQL Analytics는 데이터 레이크에서 쿼리를 실행합니다. 또한 이 서비스는 대시보드의 데이터를 시각화합니다.

  • Machine Learning 예측 분석 솔루션을 빌드, 배포 및 관리하는 데 도움이 되는 클라우드 기반 환경입니다. 이러한 모델을 사용하면 동작, 결과 및 추세를 예측할 수 있습니다.

  • AKS는 고가용성의 안전한 완전 관리형 Kubernetes 서비스입니다. AKS를 사용하면 컨테이너화된 애플리케이션을 쉽게 배포하고 관리할 수 있습니다.

  • Azure Synapse는 데이터 웨어하우스 및 빅 데이터 시스템을 위한 분석 서비스입니다. 이 서비스는 Power BI, Machine Learning 및 기타 Azure 서비스와 통합됩니다.

  • Azure Synapse 커넥터는 Azure Databricks에서 Azure Synapse에 액세스하는 방법을 제공합니다. 이러한 커넥터는 Azure Databricks 클러스터와 Azure Synapse 인스턴스 간에 대량의 데이터를 효율적으로 전송합니다.

  • SQL 풀은 Azure Synapse에서 데이터 웨어하우징 및 컴퓨팅 환경을 제공합니다. 풀은 Azure Storage 및 Data Lake Storage Gen2와 호환됩니다.

  • Delta Lake는 열린 파일 형식을 사용하는 스토리지 계층입니다. 이 계층은 Data Lake Storage Gen2와 같은 클라우드 스토리지를 기반으로 실행됩니다. Delta Lake는 데이터 업데이트, 삭제 및 병합을 위한 데이터 버전 관리, 롤백 및 트랜잭션을 지원합니다.

  • MLflow는 기계 학습 수명 주기를 위한 오픈 소스 플랫폼입니다. 해당 구성 요소는 학습 및 실행 중에 기계 학습 모델을 모니터링합니다. 또한 MLflow는 모델을 저장하고 프로덕션 환경에 로드합니다.

보고 및 관리 구성 요소

  • Power BI는 소프트웨어 서비스 및 앱의 컬렉션입니다. 이러한 서비스는 관련 없는 데이터 원본을 연결하고 시각화하는 보고서를 만들고 공유합니다. Power BI는 Azure Databricks와 함께 근본 원인 결정 및 원시 데이터 분석을 제공할 수 있습니다.

  • Microsoft Purview는 온-프레미스, 다중 클라우드 및 SaaS(서비스 제공 소프트웨어) 데이터를 관리합니다. 이 거버넌스 서비스는 데이터 환경 맵을 유지 관리합니다. 기능에는 자동 데이터 검색, 중요한 데이터 분류, 데이터 계보가 포함되어 있습니다.

  • Azure DevOps는 DevOps 오케스트레이션 플랫폼입니다. 이 SaaS는 애플리케이션을 빌드, 배포 및 협업하기 위한 도구와 환경을 제공합니다.

  • Azure Key Vault는 토큰, 암호, API 키와 같은 비밀을 저장하고 이러한 비밀에 대한 액세스를 제어합니다. 또한 Key Vault는 암호화 키를 만들고 제어하며 보안 인증서를 관리합니다.

  • Microsoft Entra ID 는 클라우드 기반 ID 및 액세스 관리 서비스를 제공합니다. 이러한 기능은 사용자가 로그인하고 리소스에 액세스할 수 있는 방법을 제공합니다.

  • Monitor는 환경과 Azure 리소스에 대한 데이터를 수집하고 분석합니다. 이 데이터에는 성능 메트릭, 활동 로그 등의 앱 원격 분석이 포함됩니다.

  • Azure Cost Management 및 청구는 클라우드 지출을 관리합니다. 이 서비스는 예산 및 권장 사항을 사용하여 비용을 구성하고 비용을 절감하는 방법을 보여 줍니다.

시나리오 정보

최신 데이터 아키텍처는 다음 조건을 충족합니다.

  • 데이터, 분석 및 AI 워크로드를 통합합니다.
  • 모든 규모에서 효율적이고 안정적으로 실행합니다.
  • 분석 대시보드, 운영 보고서 또는 고급 분석을 통해 인사이트를 제공합니다.

이 솔루션은 이러한 목표를 달성하는 최신 데이터 아키텍처를 간략하게 설명합니다. Azure Databricks는 솔루션의 핵심을 형성합니다. 이 플랫폼은 다른 서비스와 원활하게 작동합니다. 이러한 서비스는 다음과 같은 품질을 갖춘 솔루션을 제공합니다.

  • 단순: 통합 분석, 데이터 과학 및 기계 학습은 데이터 아키텍처를 간소화합니다.
  • 개방성: 이 솔루션은 오픈 소스 코드, 개방형 표준 및 개방형 프레임워크를 지원합니다. 또한 널리 사용되는 IDE(통합 개발 환경), 라이브러리, 프로그래밍 언어에서도 작동합니다. 네이티브 커넥터와 API를 통해 솔루션은 광범위한 다른 서비스에서도 작동합니다.
  • 협업: 데이터 엔지니어, 데이터 과학자, 분석가가 이 솔루션을 사용하여 협업합니다. 협업 Notebook, IDE, 대시보드, 기타 도구를 사용하여 일반적인 기본 데이터에 액세스하고 분석할 수 있습니다.

잠재적인 사용 사례

Swiss Re Group이 재산 및 사고 재보험 부서를 위해 구축한 시스템은 이 솔루션에 영감을 줍니다. 보험 업계 외에도 빅 데이터 또는 기계 학습과 함께 작동하는 모든 영역도 이 솔루션의 이점을 제공합니다. 다음은 이러한 템플릿의 예입니다.

  • 에너지 부문
  • 소매 및 전자 상거래
  • 은행 및 금융 업무
  • 의학 및 의료

다음 단계

관련 솔루션에 대해 알아보려면 이 정보를 참조하세요.