WEKA實際操作及如何找到數據資料庫

2014-01-14

WEKA實際操作及如何找到數據資料庫

上次介紹過WEKA的基本功能及演算法介紹，相信大家對WEKA已經有一定程度的了解了。

今天!!!!小編要親自操作WEKA並分析出一個海量數據的結論。經過親自操作過，對WEKA的使用就完全不陌生，要分析一個海量資料就能得心應手囉!

首先要先找到你要分析的數據，這邊小編跟大家講一個專門用來實驗做分析的數據資料庫。

http://archive.ics.uci.edu/ml/ 這是外國一所大學UCI，提供的數據資料庫。

上面的連結點入後就可看到脊柱的資料庫的資料型態，像是此數據共有310筆，並有6個屬性，如果英文不太好，就可立即翻譯網頁來看看此數據是在幹嘛的吧!

你會在頁面上看到Download，點選Data Folder就可以下載數據囉!

之後打開神聖的WEKA，點選第一個模式(上一篇已有提過，在此不再多述)，打開剛剛下載的數據。

小編選的脊柱資料，可以分析出骨科病患他們脊柱是正常或是異常。

第一步:開啟數據來源，先把資料進行預處理，可以清楚的看到資料的屬性及筆數。

第二步:

第三步:

第四步:將資料離散化

第五步:首先小編使用J48分類法來分析數據

第六步:將將將將~~可以得到J48的決策樹，可以明顯知道哪個屬性影響結果最多

第七步:在來使用關聯式規則

由關聯規則得知：

• 不正常較多與pelvic radius (盆腔半徑)、spondylolisthesis(脊椎滑脫)有關

• 正常部分較多與pelvic incidence(盆腔炎發病率)、 lumbar lordosis angle、spondylolisthesis有關

透過以上演算法就可輕易得知哪個屬性與結果有關囉!

我們不需要了解統計的演算，算到要死要活還得不出一個結論，透過WEKA就能輕鬆幫你分析出海量資料的結論囉!!!!!!

若有觀念錯誤、內容錯誤，勞請告知。謝謝。

若要轉載請註明出處，謝謝。