Arsitektur analitik modern dengan Azure Databricks

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Ide solusi

Artikel ini adalah ide solusi. Jika Anda ingin kami memperluas konten dengan informasi lebih lanjut, seperti potensi kasus penggunaan, layanan alternatif, pertimbangan implementasi, atau panduan harga, beri tahu kami dengan memberikan umpan balik GitHub.

Solusi ini menguraikan arsitektur data modern. Azure Databricks membentuk inti solusi. Platform ini bekerja dengan mulus dengan layanan lain, seperti Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics, dan Power BI.

ApacheĀ® dan Apache Sparkā„¢ adalah merek dagang terdaftar atau merek dagang dari Apache Software Foundation di Amerika Serikat dan/atau negara lain. Tidak ada dukungan oleh The Apache Software Foundation yang tersirat oleh penggunaan tanda ini.

Arsitektur

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Unduh file Visio arsitektur ini.

Aliran data

  1. Azure Databricks menyerap data streaming mentah dari Azure Event Hubs.

  2. Data Factory memuat data batch mentah ke Dalam Data Lake Storage Gen2.

  3. Untuk penyimpanan data:

    • Data Lake Storage Gen2 menyimpan data dari semua jenis, seperti terstruktur, tidak terstruktur, dan semi terstruktur. Data Lake Storage juga menyimpan data batch dan streaming.

    • Delta Lake membentuk lapisan yang dikuratori dari data lake. Delta Lake menyimpan data yang disempurnakan dalam format open-source.

    • Azure Databricks bekerja dengan baik dengan arsitektur medali yang mengatur data menjadi lapisan:

      • Perunggu: Menyimpan data mentah.
      • Perak: Berisi data yang dibersihkan dan difilter.
      • Emas: Menyimpan data agregat yang berguna untuk analisis bisnis.
  4. Platform analitis menyerap data dari batch yang berbeda dan sumber streaming. Ilmuwan data menggunakan data ini untuk tugas berikut:

    • Persiapan data.
    • Eksplorasi data.
    • Persiapan model.
    • Pelatihan model.

    MLflow mengelola pelacakan parameter, metrik, dan model dalam eksekusi kode ilmu data. Kemungkinan pengodean fleksibel:

    • Kode dapat berupa SQL, Python, R, dan Scala.
    • Kode dapat menggunakan pustaka dan kerangka kerja sumber terbuka yang populer seperti Koala, Panda, dan scikit-learn, yang sudah dipasang dan dioptimalkan sebelumnya.
    • Praktisi dapat mengoptimalkan performa dan biaya dengan opsi komputasi node tunggal dan multi-node.
  5. Model pembelajaran mesin tersedia dalam beberapa format:

    • Azure Databricks menyimpan informasi tentang model di Registri Model MLflow. Registri membuat model tersedia melalui API batch, streaming, dan REST.
    • Solusi ini juga dapat menerapkan model untuk layanan web Azure Machine Learning atau Azure Kubernetes Service (AKS).
  6. Layanan yang bekerja dengan data tersambung ke satu sumber data yang mendasarinya untuk memastikan konsistensi. Misalnya, pengguna dapat menjalankan kueri SQL di data lake dengan Azure Databricks SQL Analytics. Layanan ini:

  7. Power BI menghasilkan laporan analitis dan historis dan dasbor dari platform data terpadu. Layanan ini menggunakan fitur-fitur ini saat bekerja dengan Azure Databricks:

    • Konektor Azure Databricks bawaan untuk memvisualisasikan data yang mendasarinya.
    • Konektivitas Database Java (JDBC) dan Konektivitas Database Terbuka (ODBC) yang dioptimalkan.
  8. Pengguna dapat mengekspor kumpulan data emas dari data lake ke Azure Synapse melalui konektor Synapse yang dioptimalkan. Kumpulan SQL di Azure Synapse menyediakan pergudangan data dan lingkungan komputasi.

  9. Solusi ini menggunakan layanan Azure untuk kolaborasi, performa, keandalan, tata kelola, dan keamanan:

    • Microsoft Purview menyediakan layanan penemuan data, klasifikasi data sensitif, dan wawasan tata kelola di seluruh data estate.

    • Azure DevOps menawarkan integrasi berkelanjutan dan penyebaran berkelanjutan (CI/CD) dan fitur kontrol versi terintegrasi lainnya.

    • Azure Key Vault mengelola rahasia, kunci, dan sertifikat dengan aman.

    • MICROSOFT Entra ID menyediakan akses menyeluruh (SSO) untuk pengguna Azure Databricks. Azure Databricks mendukung provisi pengguna otomatis dengan ID Microsoft Entra untuk tugas-tugas ini:

      • Membuat pengguna baru.
      • Menetapkan tingkat akses kepada setiap pengguna.
      • Menghapus pengguna dan menolak akses mereka.
    • Azure Monitor mengumpulkan dan menganalisis telemetri sumber daya Azure. Dengan secara proaktif mengidentifikasi masalah, layanan ini memaksimalkan performa dan keandalan.

    • Azure Cost Management dan Billing menyediakan layanan tata kelola keuangan untuk beban kerja Azure.

Komponen

Solusinya menggunakan komponen berikut.

Komponen inti

  • Azure Databricks adalah platform analisis data. Kluster Spark yang dikelola penuh memproses aliran data besar dari berbagai sumber. Azure Databricks membersihkan dan mengubah kumpulan data tanpa struktur. Azure Databricks menggabungkan data yang diproses dengan data terstruktur dari database operasional atau gudang data. Azure Databricks juga melatih dan menerapkan pembelajaran mesin yang dapat diskalakan dan model pembelajaran mendalam.

  • Event Hubs adalah platform streaming big data. Sebagai platform as a service (PaaS), layanan penyerapan peristiwa ini dikelola penuh.

  • Data Factory adalah layanan integrasi data hibrid. Anda dapat menggunakan solusi tanpa server yang dikelola sepenuhnya ini untuk membuat, menjadwalkan, dan mengatur alur kerja transformasi data.

  • Data Lake Storage Gen2 adalah data lake yang dapat diskalakan dan aman untuk beban kerja analitik berkinerja tinggi. Layanan ini dapat mengelola beberapa petabyte informasi sambil mempertahankan ratusan gigabit throughput. Data dapat terstruktur, semi-terstruktur, atau tidak terstruktur. Biasanya berasal dari beberapa sumber heterogen seperti log, file, dan media.

  • Analitik SQL Azure Databricks menjalankan kueri di data lake. Layanan ini juga memvisualisasikan data di dasbor.

  • Pembelajaran Mesin adalah lingkungan berbasis cloud yang membantu Anda membangun, menyebarkan, dan mengelola solusi analisis prediktif. Dengan model ini, Anda dapat memprakirakan perilaku, hasil, dan tren.

  • AKS adalah layanan Kubernetes yang sangat tersedia, aman, dan dikelola sepenuhnya. AKS memudahkan Anda menyebarkan dan mengelola aplikasi kontainer.

  • Azure Synapse adalah layanan analitik untuk gudang data dan sistem big data. Layanan ini terintegrasi dengan Power BI, Pembelajaran Mesin, dan layanan Azure lainnya.

  • Konektor Azure Synapse menyediakan cara untuk mengakses Azure Synapse dari Azure Databricks. Konektor ini mentransfer data dalam jumlah besar antara kluster Azure Databricks dan instans Azure Synapse secara efisien.

  • Kumpulan SQL menyediakan pergudangan data dan lingkungan komputasi di Azure Synapse. Kumpulan kompatibel dengan Azure Storage dan Data Lake Storage Gen2.

  • Delta Lake adalah lapisan penyimpanan yang menggunakan format file terbuka. Lapisan ini berjalan di atas penyimpanan cloud seperti Data Lake Storage Gen2. Delta Lake mendukung penerapan versi data, pemutaran kembali, dan transaksi untuk memperbarui, menghapus, dan menggabungkan data.

  • MLflow adalah platform sumber terbuka untuk siklus hidup pembelajaran mesin. Komponennya memantau model pembelajaran mesin selama pelatihan dan berjalan. MLflow juga menyimpan model dan memuatnya dalam produksi.

Komponen pelaporan dan pengelolaan

  • Power BI adalah kumpulan layanan dan aplikasi perangkat lunak. Layanan ini membuat dan berbagi laporan yang menghubungkan dan memvisualisasikan sumber data yang tidak terkait. Bersama dengan Azure Databricks, Power BI dapat memberikan penentuan akar penyebab dan analisis data mentah.

  • Microsoft Purview mengelola data lokal, multicloud, dan perangkat lunak sebagai layanan (SaaS). Layanan tata kelola ini mempertahankan peta lanskap data. Fiturnya termasuk penemuan data otomatis, klasifikasi data sensitif, dan silsilah data.

  • Azure DevOps adalah platform orkestrasi DevOps. SaaS ini menyediakan alat dan lingkungan untuk membangun, menyebarkan, dan berkolaborasi pada aplikasi.

  • Azure Key Vault menyimpan dan mengontrol akses ke rahasia seperti token, kata sandi, dan kunci API. Key Vault juga membuat dan mengontrol kunci enkripsi dan mengelola sertifikat keamanan.

  • ID Microsoft Entra menawarkan layanan manajemen identitas dan akses berbasis cloud. Fitur ini menyediakan cara bagi pengguna untuk masuk dan mengakses sumber daya.

  • Azure Monitor mengumpulkan dan menganalisis data tentang lingkungan dan sumber daya Azure. Data ini mencakup telemetri aplikasi, seperti metrik performa dan log aktivitas.

  • Azure Cost Management dan Billing mengelola pengeluaran cloud. Dengan menggunakan anggaran dan rekomendasi, layanan ini mengatur biaya dan menunjukkan cara mengurangi biaya.

Detail skenario

Arsitektur data modern memenuhi kriteria ini:

  • Menyatukan beban kerja data, analitik, dan AI.
  • Menjalankan secara efisien dan andal pada skala apa pun.
  • Memberikan wawasan melalui dasbor analitik, laporan operasional, atau analitik tingkat lanjut.

Solusi ini menguraikan arsitektur data modern yang mencapai tujuan ini. Azure Databricks membentuk inti solusi. Platform ini bekerja dengan mulus dengan layanan lain. Bersama-sama, layanan ini memberikan solusi dengan kualitas berikut:

  • Sederhana: Analisis terpadu, ilmu data, dan pembelajaran mesin menyederhanakan arsitektur data.
  • Terbuka: Solusi ini mendukung kode sumber terbuka, standar terbuka, dan kerangka kerja terbuka. Layanan ini juga bekerja dengan lingkungan pengembangan terintegrasi populer (IDE), pustaka, dan bahasa pemrograman. Melalui konektor native dan API, solusi ini bekerja dengan berbagai layanan lain juga.
  • Kolaboratif: Insinyur data, ilmuwan data, dan analis bekerja sama dengan solusi ini. Mereka dapat menggunakan buku catatan kolaboratif, IDE, dasbor, dan alat lain untuk mengakses dan menganalisis data dasar umum.

Kemungkinan kasus penggunaan

Sistem yang dibangun Swiss Re Group untuk divisi Property & Casualty Reinsurance menginspirasi solusi ini. Selain industri asuransi, setiap area yang bekerja dengan big data atau pembelajaran mesin juga bisa mendapatkan keuntungan dari solusi ini. Contohnya meliputi:

  • Sektor energi
  • Ritel dan e-niaga
  • Perbankan dan keuangan
  • Kedokteran dan perawatan kesehatan

Langkah berikutnya

Untuk mempelajari tentang solusi terkait, lihat informasi berikut: