Azure Databricks ve Delta Lake ile alım, ETL ve akış işleme işlem hatları

Azure Databricks
Azure Data Lake Storage
Azure IoT Hub
Azure Data Factory
Azure Event Hubs

Çözüm fikirleri

Bu makale bir çözüm fikridir. İçeriği olası kullanım örnekleri, alternatif hizmetler, uygulama konuları veya fiyatlandırma yönergeleri gibi daha fazla bilgiyle genişletmemizi isterseniz GitHub geri bildirimi sağlayarak bize bildirin.

Kuruluşunuzun her türlü biçim, boyut ve hızdaki verileri tutarlı bir şekilde buluta alması gerekir. Bu makaledeki çözüm, veri kaynaklarınızdan veri gölüne ayıklama, dönüştürme ve yükleme (ETL) uygulayan bir mimariyle bu gereksinimi karşılar. Data Lake, çeşitli ölçeklerde dönüştürülmüş ve seçilmiş sürümler de dahil olmak üzere tüm verileri barındırabilir. Veriler veri analizi, iş zekası (BI), raporlama, veri bilimi ve makine öğrenmesi için kullanılabilir.

Apache® ve Apache Spark™, Apache Software Foundation'ın Birleşik Devletler ve/veya diğer ülkelerdeki kayıtlı ticari markaları veya ticari markalarıdır. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.

Mimari

Diagram that shows the architecture and data flow for ETL and stream processing with Azure Databricks.

Bu mimarinin bir Visio dosyasını indirin.

Veri akışı

  1. Veriler aşağıdaki yollarla alınılır:

    • Event Hubs, IoT Hub veya Kafka gibi olay kuyrukları akış verilerini Azure Databricks'e gönderir ve bu da verileri okumak için iyileştirilmiş Delta Altyapısı'nı kullanır.
    • Zamanlanmış veya tetiklenen Data Factory işlem hatları, farklı veri kaynaklarından ham biçimlerdeki verileri kopyalar. Azure Databricks'teki Otomatik Yükleyici, verileri geldikçe işler.
  2. Azure Databricks, verileri Data Lake Depolama Bronz katmanındaki iyileştirilmiş, sıkıştırılmış Delta Lake tablolarına veya klasörlerine yükler.

  3. Akış, zamanlanmış veya tetiklenen Azure Databricks işleri Data Lake Depolama Bronz katmanından yeni işlemleri okur. İşler, ACID işlemlerini kullanarak Data Lake Depolama Silver ve Gold katmanlarında seçilmiş veri kümelerine yüklemeden önce verileri birleştirir, temizler, dönüştürür ve toplar.

  4. Veri kümeleri Data Lake Depolama Delta Lake'te depolanır.

Her hizmet, tutarlılık sağlamak için verileri ortak bir biçime alır. Mimari, açık Delta Lake biçimini temel alan paylaşılan bir veri gölü kullanır. Ham veriler, birleşik bir veri platformu oluşturmak için farklı toplu iş ve akış kaynaklarından alınıyor. Platform analiz, BI raporlama, veri bilimi, yapay zeka ve makine öğrenmesi gibi aşağı akış kullanım örnekleri için kullanılabilir.

Bronz, Gümüş ve Altın depolama katmanları

Bronz, Gümüş ve Altın depolama katmanlarından oluşan madalyon deseniyle müşteriler esnek erişime ve genişletilebilir veri işlemeye sahip olur.

  • Bronz tablolar, Data Lake Depolama'a indiğinde ham verilerin giriş noktasını sağlar. Veriler ham kaynak biçiminde alınır ve işlenmek üzere açık, işlemsel Delta Lake biçimine dönüştürülür. Çözüm, aşağıdakileri kullanarak verileri Bronz katmanına aktarır:
    • Azure Databricks'teki Apache Spark API'leri. API'ler Event Hubs veya IoT Hub'dan akış olaylarını okur ve ardından bu olayları veya ham dosyaları Delta Lake biçimine dönüştürür.
    • COPY INTO komutu. Verileri doğrudan bir kaynak dosyadan veya dizinden Delta Lake'e kopyalamak için komutunu kullanın.
    • Azure Databricks Otomatik Yükleyicisi. Otomatik Yükleyici, veri gölüne ulaşan dosyaları alır ve Delta Lake biçimine yazar.
    • Data Factory Kopyalama Etkinliği. Müşteriler, desteklenen biçimlerden herhangi birinden delta Lake biçimine veri dönüştürmek için bu seçeneği kullanabilir.
  • Gümüş tablolar, iş zekası ve veri bilimi kullanım örnekleri için iyileştirildiği sırada verileri depolar. Bronz katmanı ham verileri alır ve ardından verileri filtrelemek, temizlemek, dönüştürmek, birleştirmek ve Silver tarafından seçilmiş veri kümelerinde toplamak için daha fazla ETL ve akış işleme görevi gerçekleştirilir. Şirketler, bu görevler için ilk hizmet olarak Azure Databricks'i kullanırken açık standartlar Delta Altyapısı gibi tutarlı bir işlem altyapısı kullanabilir. Daha sonra SQL, Python, R veya Scala gibi tanıdık programlama dillerini kullanabilirler. Şirketler, kendi iş yüklerine göre boyutlandırılmış tekrarlanabilir DevOps işlemlerini ve kısa ömürlü işlem kümelerini de kullanabilir.
  • Altın tablolar, analiz ve raporlama için hazır zenginleştirilmiş veriler içerir. Analistler yeni içgörüler elde etmek ve sorgular formüle etmek için PySpark, Koalas, SQL, Power BI ve Excel gibi tercih ettikleri yöntemi kullanabilir.

Bileşenler

  • Event Hubs , şirket içi sistemler de dahil olmak üzere çeşitli kaynaklardan gelen akış iletilerini ayrıştırıp puanlar ve gerçek zamanlı bilgiler sağlar.
  • Data Factory , tüm verilerinizin herhangi bir ölçekte alımı, hazırlanması ve dönüştürülmesi için veri işlem hatlarını düzenler.
  • Data Lake Depolama; günlükler, dosyalar ve medya gibi yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış veriler de dahil olmak üzere akış ve toplu iş verilerini bir araya getirir.
  • Azure Databricks , yapısız veri kümelerini temizler ve dönüştürür ve bunları işletimsel veritabanlarından veya veri ambarlarından alınan yapılandırılmış verilerle birleştirir.
  • IoT Hub , IoT uygulamanız ve cihazlarınız arasında son derece güvenli ve güvenilir iletişim sağlar.
  • Data Lake'te Delta Lake Depolama güvenilirlik için ACID işlemlerini destekler ve verimli alım, işleme ve sorgular için iyileştirilmiştir.

Senaryo ayrıntıları

Azure Databricks ile alım, ETL ve akış işleme basit, açık ve işbirliğine dayalıdır:

  • Basit: Açık kaynak biçiminde seçilmiş bir katmana sahip açık veri gölü, veri mimarisini basitleştirir. Açık kaynak bir araç olan Delta Lake, Azure Data Lake Depolama data lake'e erişim sağlar. Data Lake'te Delta Lake Depolama güvenilirlik için bölünmezlik, tutarlılık, yalıtım ve dayanıklılık (ACID) işlemlerini destekler. Delta Lake verimli alım, işleme ve sorgular için iyileştirilmiştir.
  • Açık: Çözüm açık kaynak kodunu, açık standartları ve açık çerçeveleri destekler. Ayrıca popüler tümleşik geliştirme ortamları (IDE' ler), kitaplıklar ve programlama dilleri ile de çalışır. Yerel bağlayıcılar ve API'ler aracılığıyla çözüm, çok çeşitli diğer hizmetlerle de çalışır.
  • İşbirliğine dayalı: Veri mühendisleri, veri bilimcileri ve analistler bu çözümle birlikte çalışır. Ortak temel alınan verilere erişmek ve bunları analiz etmek için işbirliğine dayalı not defterleri, IDE'ler, panolar ve diğer araçları kullanabilirler.

Azure Databricks, Data Lake Depolama, Azure Data Factory, Azure Event Hubs ve Azure IoT Hub gibi diğer Azure hizmetleriyle sorunsuz bir şekilde tümleştirilir.

Olası kullanım örnekleri

Bu çözüm, gerçek zamanlı analiz için oluşturulan Providence Health Care sisteminden ilham alır. Toplu iş veya akış verilerini alan tüm sektörler de bu çözümü göz önünde bulundurabilir. Örnekler şunları içerir:

  • Perakende ve e-ticaret
  • Finance
  • Sağlık hizmetleri ve yaşam bilimleri
  • Enerji tedarikçileri

Sonraki adımlar

  • İspanyolca Point Technologies , müzisyenlerin adil bir şekilde ödeme almasına yardımcı olmak için uygun ölçekte veri almak için Azure Databricks ve Azure Data Factory kullanarak Eşleştirme Altyapısını oluşturur.

Kılavuzlar ve tam olarak dağıtılabilir mimariler: