五分鐘快速入門上手創建 Azure HDInsight 上的 R Server,且提供設定 "Cluster size" 的省錢小撇步!!!
環境前提
- 需要有Azure訂用帳戶,且需要是有額度的,Microsoft Imagine學生方案是無法使用這個服務
- 如需要嘗試看看可以試試Azure一個月的免費試用
使用Azure入口網站建立
1. 登入 https://portal.azure.com/ 進入儀表板
點選左上方的"建立資源"
2. 找到"Analytics"找到"HDIsight"服務
或是在搜尋欄直接搜尋"HDIsight"
3. 在"Basics"輸入一些資訊
- Cluster name:你這個HDInsight服務的名稱
- Subscription:Azure訂用帳戶,需要有額度(Microsoft Imagine不適用)
- Cluster type:<下一步4.做說明>
- Cluster login username:創建這個服務使用者帳號
- Cluster login password:創建這個服務使用者密碼
- SSH username:透過使用SSH登入的帳號,可以點選下面的"Use same password as cluster login"'讓密碼和服務登入一樣
- Resourse group:這個服務的資料夾放在哪裡,可以選擇創新的或是選取舊有的,這裡選擇創新的
- Location:這個服務建立的Azure區域
4. 在"Cluster type"輸入一些資訊
- Cluster type:選擇R server
- Operating system:現在只有支援Linux,所以也不用調
- Version:基本上選最新版的,本次操作版本為R Server 9.1 (HDI 3.6)
- Feature:勾選"R studio community edition for R server"
設定完之後點選Next,就像如圖
5. 在"Storage"設定
- Primary storage type:預設為Azure Storage不用變,當然也有Data Lake Store的用法,這邊不多說明
- Select a Storage account:點選新增創建或是選取一個儲存體帳戶,這裡是使用新建
6. 在"Summary"確認設定
在這裡就是看剛剛設定的資訊有沒有問題,沒問題就點選Create
!!!這邊想特別提的是設定"Cluster size"的省錢小撇步!!!
我們可以從看到Cluster size的Edit去編輯
預設是
- Number of Worker nodes:4
- Worker node size:D4 v2
- Head node size:D12 v2
- Zookeeper node sizes:A2
- R server edge node size:D4 v2
- Total cost:138.79TWD/HOUR
當然這樣的設定是在運算上面有比較好的效能,但是如果一開始只是想要試試操作看看的話,我覺得可以不需要設定到這麼高的規格,當然也就不會花費這麼貴拉!省錢(誤~~~ ,如果設定規格太低,無法把這個服務建起來!!所以呢~我推薦這樣的設定!
- Number of Worker nodes:4
- Worker node size:A3
- Head node size:A3
- Zookeeper node sizes:A2
- R server edge node size:A3
- Total cost:77.66TWD/HOUR
從138.79降到77.66元!!!省錢省錢!!XDD
<Tips>如果你點進來沒看到其他選項是正常的,因為他是提供"建議"的選項給你,點選旁邊的"檢視全部"
7. 最後可以點選鈴鐺看到目前部屬情況
連線到R Studio伺服器
接著我們可以從R server服務來登入R Studio,就可以在裡面編輯程式了!
有兩種方式可以登入:
1. 到這個URL,其中CLUSTERNAME 是您建立的 R Server 叢集名稱
https://CLUSTERNAME.azurehdinsight.net/rstudio/
2. 在Azure入口網站中開啟R Server,在Quick links點選"R Server dashboards"
從Cluster dashboards點選"R studio server"看看
<Tips>不論使用哪一種方法,第一次登入時都必須驗證兩次。第一次出現驗證提示時,請提供「叢集管理員的使用者識別碼」和「密碼」。第二次出現驗證提示時,請提供「SSH使用者識別碼」和「密碼」。之後再登入時,只需要提供 SSH 認證。
點選"R studio server",連線成功後,就會看到R studio的頁面拉!
連線到HDInsight cluster dashboard
1. 從Cluster dashboards點選"HDInsight cluster dashboard"看看
2. 直接從程式集點選網址URL
3. 直接輸入網址
https://CLUSTERNAME.azurehdinsight.net/