WEKA實際操作及如何找到數據資料庫
上次介紹過WEKA的基本功能及演算法介紹,相信大家對WEKA已經有一定程度的了解了。
今天!!!!小編要親自操作WEKA並分析出一個海量數據的結論。經過親自操作過,對WEKA的使用就完全不陌生,要分析一個海量資料就能得心應手囉!
首先要先找到你要分析的數據,這邊小編跟大家講一個專門用來實驗做分析的數據資料庫。
http://archive.ics.uci.edu/ml/ 這是外國一所大學UCI,提供的數據資料庫。
小編選用一個脊柱的資料庫進行分析http://archive.ics.uci.edu/ml/datasets/Vertebral+Column
上面的連結點入後就可看到脊柱的資料庫的資料型態,像是此數據共有310筆,並有6個屬性,如果英文不太好,就可立即翻譯網頁來看看此數據是在幹嘛的吧!
你會在頁面上看到Download,點選Data Folder就可以下載數據囉!
之後打開神聖的WEKA,點選第一個模式(上一篇已有提過,在此不再多述),打開剛剛下載的數據。
小編選的脊柱資料,可以分析出骨科病患他們脊柱是正常或是異常。
第一步:開啟數據來源,先把資料進行預處理,可以清楚的看到資料的屬性及筆數。
第二步:
第三步:
第四步:將資料離散化
第五步:首先小編使用J48分類法來分析數據
第六步:將將將將~~可以得到J48的決策樹,可以明顯知道哪個屬性影響結果最多
第七步:在來使用關聯式規則
由關聯規則得知:
• 不正常較多與pelvic radius (盆腔半徑)、spondylolisthesis(脊椎滑脫)有關
• 正常部分較多與pelvic incidence(盆腔炎發病率)、 lumbar lordosis angle、spondylolisthesis有關
透過以上演算法就可輕易得知哪個屬性與結果有關囉!
我們不需要了解統計的演算,算到要死要活還得不出一個結論,透過WEKA就能輕鬆幫你分析出海量資料的結論囉!!!!!!
若有觀念錯誤、內容錯誤,勞請告知。 謝謝。
若要轉載請註明出處,謝謝。