上一篇先筆記Realtime的評分預存程序sp_rxPredict給同事看,這篇來筆記SQL 2017推出的原生(Native)述詞- PREDICT,更直覺簡單的寫法。
[SQL Server][Machine Learning]新功能-PREDICT述詞(原生評分)
- 4533
- 0
- R Language
上一篇先筆記Realtime的評分預存程序sp_rxPredict給同事看,這篇來筆記SQL 2017推出的原生(Native)述詞- PREDICT,更直覺簡單的寫法。
測試環境訓練好模型,正式上場預測前,我們會需要再建立一段R的評分程式碼,並且以字串的方式包在外部預存程序介面內(sp_execute_external_script),透過讀取序列化後的模型在R的環境執行預測。
但這樣的方式還是多了點麻煩,第一個是程式的可讀性,第二個則是正式環境的資料庫必需依賴R的環境作運算,要解決這個問題,也許可以試試看SQL2016就推出的Realtime評分(sp_rxPredict)或是SQL 2017推出的原生(Native)評分方式,更即時更原生的方式執行。
最近想把某個問題的答題方式從線性迴歸改用決策樹演算法,使用sp_execute_external_script呼叫revoscaler下的rxDTree演算法建模時,出現了外部指令碼錯誤 : failure to allocate requested memory訊息,相同的資料量,線性模型rxFastLinear卻可以處理,筆記偵錯之路。
MicrosoftML是Microsoft R Server最新的機器學習演算法套件包,直接內建在SQL Server 2017附加安裝的Machine Learning Services,除了之前CTP時曾經練習過one-class SVM,還包含了
在執行異常偵測(abnormal detection)時,通常我們擁有大量的正常交易資料,但可能沒有足夠的不正常交易來讓機器學習,這個時候可以考慮單類別的SVM演算法(one Class-SVM)。很理想的,one Class-SVM隨著MicrosoftML套件也正式在R Server 9.0後可以在地面環境使用了(SQL Server 2017 CTP2),我們來試試。
R語言以及Python是資料科學工作中常用的兩把利劍,兩者在資料分析、機器學習上都是很棒的武器,去年微軟在SQL Server 2016把R語言整合進平台,就在今年,即將推出的SQL Server 2017也將把Python整合進資料平台了,此外,這一次也同時把R Services重新命名為Machine Learning服務來呼應這次的整合與原有R機器學習套件的升級,不久的將來,Python常用的scikit-learn、TensorFlow及keras套件也能直接執行在SQL Server內了,今天我們先來安裝RC2版本環境。
當我們在執行大量資料分析時,資料科學用戶端的本機記憶體及CPU運算能力可能會不足,另外如果也希望資料庫的資料不要走出家門太久,這時候就可以考慮在遠端的SQL Server上執行分佈運算Distributed Computing。
Glm是Open source R羅吉斯迴歸分析函數,RxLogit則是Revolution R羅吉斯迴歸分析函數,第一次用RxLogit想求證看看,我們來驗證看看兩個Library的測試結果是否相符。
除了已經在SQL Server資料庫內的資料,有時候也會有其他來源收集的整批資料,這時候就可以在R用戶端呼叫RevoScaleR函數直接在SQL Server內建立資料物件並且匯入資料。
為了能在用戶端使用RevoScaleR(增強型R套件),這時候安裝Microsoft R Server或是Microsoft R Client就可以像和In-Database R中繼續使用RevoScaleR套件開發R。
上一篇將訓練後的線性迴歸模型儲存在SQL 資料表內,這一篇筆記在SQL Server 2016使用模型作出預測。
當SQL Server 完成機器學習後,如果能把訓練後的模型直接儲存在SQL資料表,新的交易數據馬上能就近在資料庫內參照模型作預測。這篇先紀錄將訓練後的模型儲存在SQL Server 2016資料庫內,下一篇再筆記使用模型對新數據作出預測。
文字雲(Word Cloud)是統計關鍵字詞的視覺化呈現,如果分析資料已經整理到SQL Server資料表中了,我們要如何在ASP.NET網站將統計後的結果使用文字雲來描述?
上一篇安裝完需要的R Package,這一篇筆記怎麼查R Serives已經安裝了那些R Package。
R語言除了有大量的統計分析套件,在資料視覺化上一定要筆記的就是R Packages下載排行版前幾名的[ggplot2]。
資料庫跑完分析後直接用厲害的視覺化魔法呈現在網站上!
安裝完需要的R Package之後,接著使用sp_execute_external_script來從SQL Table取得資料。
SQL Server 2016開始內建支援R語言分析,少去中間ETL過程,程式可以直接把關聯式資料庫內整齊的資料跑統計、跑分群分組模型、跑迴歸還有跑圖,今天先把Lession 1: In-Database R裝起來。
R套件(Package)的資源非常豐富,截自2016-06-18已經有8,195個R包可以下載,安裝完R Service(In-DataBase R)之後,
會有基本內建的R包,但許多常用的R包則需要額外下載及安裝,這篇來筆記R包的安裝。
3月的Channel9頻道上,台灣微軟的年輕正妹Jade很快速又清楚的介紹R Tool for Visual Studio功能,
在這個巴薩會拿下西甲冠軍的美好周末,來筆記R裡頭很強大的繪圖套件ggplot2。
這一篇先把R Studio關起來,來試試看Visual Studio寫R。
R支援向量運算,可以大量減少程式內的迴圈使用,在計算統計分析中需要把資料結構拉成水平的去觀察,
筆記Lession 2: 向量運算。