DP-203: Data Engineering on Microsoft Azure 自學筆記 1/

Azure Data Engineer 自學筆記 DP-203: Data Engineering on Microsoft Azure 

Azure 資料工程師學習路徑 - Training | Microsoft Learn

單元一、了解不斷演進的資料世界 (6單元)

1. 資料分類 Data abundance - Training | Microsoft Learn

  
結構化、或彙總Azure SQL Database 、 Azure SQL 資料倉儲)
非結構化 (NoSQL) Azure Blob 、Azure Cosmos DB 、 Azure HDInsight

2. 資料使用規範:GDPR (一般資料保護規定) 、PCI DSS (支付卡產業資料安全性標準)

3. on Premises (地端) vs on Cloud (雲端) Understand the difference between on-premises and cloud-based servers - Training | Microsoft Learn

(1) on Premises :Server、Storeage、Network ; Power、Cooling System ; OS、Software License

  • 維護:硬體、韌體、驅動程式、BIOS、作業系統、軟體和防毒軟體
  • 延展性:叢集中每部伺服器的硬體都必須相同。 因此,當伺服器叢集達到最大容量時,伺服器管理員必須替換或升級叢集中的每個節點。
  • 可用性

(2) on Cloud:(Iaas Paas) 虛擬伺服器、智慧型應用程式和容器

  • Storage Types:Azure Blob storage、Azure Files storage、Azure Disk Storage
  • 維護:Microsoft 管理重要基礎結構服務,例如實體硬體、電腦網路、防火牆和網路安全性、資料中心容錯、合規性,以及建築物的實體安全性。為客戶更新作業系統和韌體
  • 延展性
  • 可用性
  • 多語系:資料儲存為包含語言代碼識別碼 (LCID) 的 JSON 檔案。
  • 成本:按使用量計費,測量單位包括計算單位、時數或交易數。 成本包括硬體、軟體、磁碟儲存體及人力。 [規模經濟的優勢]

4. Infrastruncture 角色轉換 Understand job responsibilities - Training | Microsoft Learn

(1) Database 管理者→ focus on data → 資料工程師

  • 技術:使用 Azure HDInsight 和 Azure Cosmos DB 等其他技術
  • 巨量資料技術:HiveQL 、 Python、SQL、R、Scala 
  • ELT

5. 應用面-案例 Use cases for the cloud - Training | Microsoft Learn

   
Web ApplicationAzure Cosmos DB -multimaster replication model Web and Mobile Applications
Response time:less than 10 ms
醫療 SolutionAzure Databricksbig-data analytics and AI solutions
PB 規模
新式資料倉儲、機器學習、即時分析
IoT SolutionAzure IoT Hub 

 

上一篇:

下一篇: