大數據概論

大數據概論

大數據定義

  • 用現有技術難以管理的大量資料

大數據4V特性

  • 巨量性(Volume):以PB~ZB為儲存單位
  • 即時性(Velocity):數據的產出快而且變化也快,甚至不到一秒
  • 多樣性(Variety):資料種類複雜
  • 價值性(Value):妥善應用大數據可從中獲得商業價值

商業智慧(BI)

  • 指有組織有系統對儲存在企業內外部資料進行彙整、整理與分析,並創造出有助於商務上的決策與知識

大數據的應用流程

  1. 採集:利用資料庫收集客戶端數據
  2. 導入:將前端數據導入到一個分散式資料庫或分散式存儲集群
  3. 統計與分析:對於儲存在分散式資料庫內的巨量數據進行分析與彙總
  4. 挖掘:在現有的數據上進行各種演算法的計算

資料倉儲(Data Warehouse)

  • 通常用於傳統的資料源(結構化資料)
  • 具有主題導向、整合性、長期性、少變性
  • 分散式架構(資料超市):是資料倉儲的子集,目的是為了企業中個別部門或單位
  • 集中式架構(資料倉儲):包含所有企業資訊,這些資訊來自多個運作系統的資料

Hadoop

  • 由Apache所開發出的開放原始碼分散式運算技術,以Java語言所開發
  • 專門針對大量且結構複雜的大數據分析所設計
  • 不是為了瞬間處理或分析資料而是透過分散式的資料處理模式,大量掃描資料檔已產生結果
  • 不須使用商業伺服器,一般PC即可運作
  • 可利用網路連接兩台以上PC組成叢集,叢集內的主機會分工合作處理資料
  • 當需要增加PC數量不需要修改程式碼就能立即增加

Hadoop的組成

  • HDFS:資料切割、製作副本、分散儲存
  • MapReduce:拆解任務、分散處理、彙整結果
  • HBase:分散式儲存系統,是Hadoop所使用的資料庫

資料採礦六大功能

  • 資料分類:按照分析對象屬性分門別類,建立類別
  • 資料估計:根據既有的連續性數值屬性資料,以獲取某一屬性未知之值
  • 資料預測:依照過去的歷史值來推估未來值
  • 資料關聯分組:從所有物件決定那些物件應歸納在一起
  • 資料群集:將異質母體中區隔具同質性群組
  • 資料循序樣式採礦:在一序列的資料庫中,找出資料和時間相關之行為模式,並分析序列的狀態轉變進而達到預測的效果

資料採礦的定義

  • 也可稱為資料探勘
  • 指在龐大的資料庫中利用各種技術與方法將大量歷史資料進行分析、歸納與整合

資料採礦步驟

  1. 定義商業問題:對企業問題與需求必須深入了解
  2. 資料理解:定義所需資料、收集完整資料並做初步分析
  3. 資料預處理:修正資料格式不一致等問題
  4. 建立模型:根據資料形式選擇最適合的資料採礦技術並利用不同資料進行模型測試
  5. 評價和解釋:了解是否有尚未被考慮的商業問題或盲點
  6. 實施:將整合過後的模型應用於商業上

資料採礦分析方法

  • 決策樹:同時提供分類與預測的方法,可處理類別型與連續型分類預測問題,是一種監督式學習
  • 貝氏機率分類:分類前須先知道分類型態,是一種監督式學習
  • 關聯規則:分析資料庫中不同變數或個體之間的關係程度或機率大小,又稱為購物籃分析,找出顧客購買行為
  • 群集分析:將類似的事物歸類,將資料分為幾組,找出組與組之間的差異
  • 時序群集:找出先後發生事物的關係,重點在於分析資料間的先後序列關係
  • 迴歸分析:使用現有數值來預測一個連續數值的可能值,只支援連續屬性
  • 類神經網路:類似人類神經結構的平行計算模式,基於腦與神經所開發的資訊處理技術,大致可分為監督式、非監督式、聯想式及最適化應用
  • 時間序列:使用過去的已知數值來預測未來的數值,類似迴歸分析區別在時間的不同