[HDInsight|R Server] 5 分鐘入門:創建 Azure HDInsight 上的 R Server

五分鐘快速入門上手創建 Azure HDInsight 上的 R Server,且提供設定 "Cluster size" 的省錢小撇步!!!

環境前提

  • 需要有Azure訂用帳戶,且需要是有額度的,Microsoft Imagine學生方案是無法使用這個服務
  • 如需要嘗試看看可以試試Azure一個月的免費試用

使用Azure入口網站建立

1. 登入 https://portal.azure.com/ 進入儀表板

點選左上方的"建立資源"

2. 找到"Analytics"找到"HDIsight"服務


或是在搜尋欄直接搜尋"HDIsight"

3. 在"Basics"輸入一些資訊

  • Cluster name:你這個HDInsight服務的名稱
  • Subscription:Azure訂用帳戶,需要有額度(Microsoft Imagine不適用)
  • Cluster type:<下一步4.做說明>
  • Cluster login username:創建這個服務使用者帳號
  • Cluster login password:創建這個服務使用者密碼
  • SSH username:透過使用SSH登入的帳號,可以點選下面的"Use same password as cluster login"'讓密碼和服務登入一樣
  • Resourse group:這個服務的資料夾放在哪裡,可以選擇創新的或是選取舊有的,這裡選擇創新的
  • Location:這個服務建立的Azure區域

4. 在"Cluster type"輸入一些資訊

  • Cluster type:選擇R server
  • Operating system:現在只有支援Linux,所以也不用調
  • Version:基本上選最新版的,本次操作版本為R Server 9.1 (HDI 3.6)
  • Feature:勾選"R studio community edition for R server"

設定完之後點選Next,就像如圖

5. 在"Storage"設定

  • Primary storage type:預設為Azure Storage不用變,當然也有Data Lake Store的用法,這邊不多說明
  • Select a Storage account:點選新增創建或是選取一個儲存體帳戶,這裡是使用新建

6. 在"Summary"確認設定

在這裡就是看剛剛設定的資訊有沒有問題,沒問題就點選Create

!!!這邊想特別提的是設定"Cluster size"的省錢小撇步!!!

我們可以從看到Cluster size的Edit去編輯

預設是

  • Number of Worker nodes:4
  • Worker node size:D4 v2
  • Head node size:D12 v2
  • Zookeeper node sizes:A2
  • R server edge node size:D4 v2
  • Total cost:138.79TWD/HOUR

當然這樣的設定是在運算上面有比較好的效能,但是如果一開始只是想要試試操作看看的話,我覺得可以不需要設定到這麼高的規格,當然也就不會花費這麼貴拉!省錢(誤~~~ ,如果設定規格太低,無法把這個服務建起來!!所以呢~我推薦這樣的設定!

  • Number of Worker nodes:4
  • Worker node size:A3
  • Head node size:A3
  • Zookeeper node sizes:A2
  • R server edge node size:A3
  • Total cost:77.66TWD/HOUR

從138.79降到77.66元!!!省錢省錢!!XDD

<Tips>如果你點進來沒看到其他選項是正常的,因為他是提供"建議"的選項給你,點選旁邊的"檢視全部"

7. 最後可以點選鈴鐺看到目前部屬情況


連線到R Studio伺服器

接著我們可以從R server服務來登入R Studio,就可以在裡面編輯程式了!
有兩種方式可以登入:

1. 到這個URL,其中CLUSTERNAME 是您建立的 R Server 叢集名稱

https://CLUSTERNAME.azurehdinsight.net/rstudio/

2. 在Azure入口網站中開啟R Server,在Quick links點選"R Server dashboards"

從Cluster dashboards點選"R studio server"看看

<Tips>不論使用哪一種方法,第一次登入時都必須驗證兩次。第一次出現驗證提示時,請提供「叢集管理員的使用者識別碼」和「密碼」。第二次出現驗證提示時,請提供「SSH使用者識別碼」和「密碼」。之後再登入時,只需要提供 SSH 認證。

點選"R studio server",連線成功後,就會看到R studio的頁面拉!

連線到HDInsight cluster dashboard

1. 從Cluster dashboards點選"HDInsight cluster dashboard"看看

2. 直接從程式集點選網址URL

3. 直接輸入網址

https://CLUSTERNAME.azurehdinsight.net/

參考網站

  1. https://docs.microsoft.com/zh-tw/azure/hdinsight/r-server/r-server-get-started