DP-203: Data Engineering on Microsoft Azure 自學筆記 2/

Azure Data Engineer 自學筆記 DP-203: Data Engineering on Microsoft Azure 

Azure 資料工程師學習路徑 - Training | Microsoft Learn

單元二、調查Azure資料平台的服務(11 Units)

1. 非結構化資料範圍:binary, audio,  image Explore structured and nonstructured data - Training | Microsoft Learn
特性:資料結構並不在設計階段時定義,讀取資料時,才會定義資料結構。支援 JSON 檔案格式。
圖來源:非關聯式資料和 NoSQL - Azure Architecture Center | Microsoft Learn

  • RDBMS:一致性(Consistency)、可用性(Availability) =>交易型
  • MongoDB/ Hadoop :一致性(Consistency)、分區容錯性(Partition Tolerence)  =>分析、查詢 node 不穩定的時候不接受 request
  • Cassendra/ CouchDB:可用性(Availability) 、分區容錯性(Partition Tolerence)=>node 可用就能持續運作
NoSQL 資料庫說明
Key-value 

Redis
In Memory技術
讀的速度是每秒110,000次,而寫的速度是每秒81,000次

Example of data in a key/value store
Document

MongoDB

Example document data store
Graph 

Gremlin
節點和邊緣來表示互連資料的模型 (例如社交網路中人與人之間的關係)

Example of data in a graph data store
Column 

多列疏鬆資料間查詢,而且有利於在資料庫的特定資料行間查詢。

Example of column-family data

2. Azure Blob Storage Understand data storage in Azure Storage - Training | Microsoft Learn

  • Azure 中最便宜的儲存資料方式
  • Just Store
  • 存放Images 、非結構化資料

3. Azure Data Lake Storage Understand data storage in Azure Data Lake Storage - Training | Microsoft Learn
用於巨量資料分析
查詢方式:使用 Azure Blob Storage API 、 Azure Data Lake  (ADLS) API

  • 無限的延展性
  • Hadoop 相容性
  • 兩種存取控制清單 (ACL) 的安全性支援
  • 可移植作業系統介面(POSIX) 合規性
  • 最佳化的 Azure Blob 檔案系統 (ABFS) 驅動程式,專為巨量資料分析設計
  • 區域備援儲存體
  • 異地備援儲存體

4. Azure Cosmos DB Understand Azure Cosmos DB - Training | Microsoft Learn
多重模型架構(半結構化資料使用 MongoDB,為寬資料行使用 Cassandra,或為圖形資料庫使用 Gremlin)
用於多種 NoSQL 資料庫,效能低延遲時,支援<10 ms的回應時間
查詢方式:stored procedures, triggers, and user-defined functions (UDFs)、JavaScript query API

5. Azure SQL Database 「平台即服務」(PaaS)   Understand Azure SQL Database - Training | Microsoft Learn
RDBMS、OLTP
應用程式開發語言:.NET、Node.js、Python 和 Java
查詢方式:T-SQL
資料安全:

  • 進階威脅防護 Advanced Threat Protection
  • SQL Database 稽核(auditing)
  • 資料加密(encryption)
  • Azure Active Directory 驗證
  • Multi-Factor Authentication
  • 合規性認證

6. Azure Synapse Analytics *考試重點 Understand Azure Synapse Analytics - Training | Microsoft Learn

企業資料倉儲 + 巨量資料分析 (PB 規模)
SQL Pools特性:大量平行處理(MPP)、PolyBase 載入,速度超快
支援三種類型的分散式資料表:雜湊hash、循環配置資源round-robin、複寫replicated
ELT方法:使用 Azure Data Factory 以 PolyBase 來內嵌和處理資料。
查詢方式:T-SQL、PolyBase 搭配額外的 Transact-SQL 建構函式 (例如 CREATE TABLE 和 AS SELECT) 來快速載入資料。
資料安全:columns Security、 rows Security

7. Azure Stream Analytics Understand Azure Stream Analytics - Training | Microsoft Learn

Diagram showing how to apply Stream Analytics in a system.

應用:物聯網 (IoT) 監控、Web 記錄、遠端病患監視和 (POS) 系統

Azure IoT Hub:雙向通訊功能意謂著當您從裝置接收資料時,也可以將命令和原則傳回給裝置。 例如,利用這項功能來更新屬性或叫用裝置管理動作。 Azure IoT 中樞也可以驗證 IoT 裝置與 IoT 中樞之間的存取。
Azure Event Hub:高資料輸送量(每日傳送數十億個要求),
已整合服務:Databricks, Stream Analytics, Azure Data Lake Storage, and HDInsight
 

Table comparing streaming IoT capabilities.

8. Azure HDInsight Understand Azure HDInsight - Training | Microsoft Learn

batch processing, data warehousing, IoT, and data science
特性:大數據雲端解決方案(低成本)

  • Hadoop 包括 Apache Hive、HBase、Spark 與 Kafka。 Hadoop 在檔案系統 (HDFS) 中儲存資料。 Spark 則將資料儲存在記憶體中。 這項儲存差異使 Spark 快約 100 倍。
  • HBase 是建置於 Hadoop 的 NoSQL 資料庫。 常用於搜尋引擎。 HBase 提供自動容錯移轉。
  • Storm 是分散式即時串流分析解決方案。
  • Kafka 是開放原始碼平台,用於編寫資料管線。 可提供訊息佇列功能,其可讓使用者發佈或訂閱即時資料流。

Ingest:Hive run ETL / Hive query in ADF
資料處理:Java 、Python 
查詢方式:Hadoop→Pig / HiveQL ; Spark:Spark SQL

9. 其他Azure資料服務 Understand other Azure data services - Training | Microsoft Learn

  • Databricks :程式語言 R、Python、Scala 與 SQL
  • Data Factory :
  • Microsoft Purview: 資料治理服務,舊的Azure Purview + Microsoft 365 Compliance portfolio 
    資料探索、敏感性資料分類與端對端資料譜系

上一篇:

下一篇: