Azure Data Engineer 自學筆記 DP-203: Data Engineering on Microsoft Azure
Azure 資料工程師學習路徑 - Training | Microsoft Learn
單元二、調查Azure資料平台的服務(11 Units)
1. 非結構化資料範圍:binary, audio, image Explore structured and nonstructured data - Training | Microsoft Learn
特性:資料結構並不在設計階段時定義,讀取資料時,才會定義資料結構。支援 JSON 檔案格式。
圖來源:非關聯式資料和 NoSQL - Azure Architecture Center | Microsoft Learn
- RDBMS:一致性(Consistency)、可用性(Availability) =>交易型
- MongoDB/ Hadoop :一致性(Consistency)、分區容錯性(Partition Tolerence) =>分析、查詢 node 不穩定的時候不接受 request
- Cassendra/ CouchDB:可用性(Availability) 、分區容錯性(Partition Tolerence)=>node 可用就能持續運作
NoSQL 資料庫 | 說明 |
Key-value | Redis |
Document | MongoDB |
Graph | Gremlin |
Column | 多列疏鬆資料間查詢,而且有利於在資料庫的特定資料行間查詢。 |
2. Azure Blob Storage Understand data storage in Azure Storage - Training | Microsoft Learn
- Azure 中最便宜的儲存資料方式
- Just Store
- 存放Images 、非結構化資料
3. Azure Data Lake Storage Understand data storage in Azure Data Lake Storage - Training | Microsoft Learn
用於巨量資料分析
查詢方式:使用 Azure Blob Storage API 、 Azure Data Lake (ADLS) API
- 無限的延展性
- Hadoop 相容性
- 兩種存取控制清單 (ACL) 的安全性支援
- 可移植作業系統介面(POSIX) 合規性
- 最佳化的 Azure Blob 檔案系統 (ABFS) 驅動程式,專為巨量資料分析設計
- 區域備援儲存體
- 異地備援儲存體
4. Azure Cosmos DB Understand Azure Cosmos DB - Training | Microsoft Learn
多重模型架構(半結構化資料使用 MongoDB,為寬資料行使用 Cassandra,或為圖形資料庫使用 Gremlin)
用於多種 NoSQL 資料庫,效能低延遲時,支援<10 ms的回應時間
查詢方式:stored procedures, triggers, and user-defined functions (UDFs)、JavaScript query API
5. Azure SQL Database 「平台即服務」(PaaS) Understand Azure SQL Database - Training | Microsoft Learn
RDBMS、OLTP
應用程式開發語言:.NET、Node.js、Python 和 Java
查詢方式:T-SQL
資料安全:
- 進階威脅防護 Advanced Threat Protection
- SQL Database 稽核(auditing)
- 資料加密(encryption)
- Azure Active Directory 驗證
- Multi-Factor Authentication
- 合規性認證
6. Azure Synapse Analytics *考試重點 Understand Azure Synapse Analytics - Training | Microsoft Learn
企業資料倉儲 + 巨量資料分析 (PB 規模)
SQL Pools特性:大量平行處理(MPP)、PolyBase 載入,速度超快
支援三種類型的分散式資料表:雜湊hash、循環配置資源round-robin、複寫replicated
ELT方法:使用 Azure Data Factory 以 PolyBase 來內嵌和處理資料。
查詢方式:T-SQL、PolyBase 搭配額外的 Transact-SQL 建構函式 (例如 CREATE TABLE 和 AS SELECT) 來快速載入資料。
資料安全:columns Security、 rows Security
7. Azure Stream Analytics Understand Azure Stream Analytics - Training | Microsoft Learn
應用:物聯網 (IoT) 監控、Web 記錄、遠端病患監視和 (POS) 系統
Azure IoT Hub:雙向通訊功能意謂著當您從裝置接收資料時,也可以將命令和原則傳回給裝置。 例如,利用這項功能來更新屬性或叫用裝置管理動作。 Azure IoT 中樞也可以驗證 IoT 裝置與 IoT 中樞之間的存取。
Azure Event Hub:高資料輸送量(每日傳送數十億個要求),
已整合服務:Databricks, Stream Analytics, Azure Data Lake Storage, and HDInsight
8. Azure HDInsight Understand Azure HDInsight - Training | Microsoft Learn
batch processing, data warehousing, IoT, and data science
特性:大數據雲端解決方案(低成本)
- Hadoop 包括 Apache Hive、HBase、Spark 與 Kafka。 Hadoop 在檔案系統 (HDFS) 中儲存資料。 Spark 則將資料儲存在記憶體中。 這項儲存差異使 Spark 快約 100 倍。
- HBase 是建置於 Hadoop 的 NoSQL 資料庫。 常用於搜尋引擎。 HBase 提供自動容錯移轉。
- Storm 是分散式即時串流分析解決方案。
- Kafka 是開放原始碼平台,用於編寫資料管線。 可提供訊息佇列功能,其可讓使用者發佈或訂閱即時資料流。
Ingest:Hive run ETL / Hive query in ADF
資料處理:Java 、Python
查詢方式:Hadoop→Pig / HiveQL ; Spark:Spark SQL
9. 其他Azure資料服務 Understand other Azure data services - Training | Microsoft Learn
- Databricks :程式語言 R、Python、Scala 與 SQL
- Data Factory :
- Microsoft Purview: 資料治理服務,舊的Azure Purview + Microsoft 365 Compliance portfolio
資料探索、敏感性資料分類與端對端資料譜系
上一篇:
下一篇: