使用Data Explorer for Excel 抓取各種非結構化資料進行分析

  • 13341
  • 0
  • 2013-03-04

使用Data Explorer for Excel 抓取各種非結構化資料進行分析

在進行商務分析時,除了分析的技術之外,如何取得資料以及如何針對資料進行清理也是非常重要的議題,尤其是在Big Data的浪潮下,分析的標的將不僅限於結構化資料(文字檔案或資料庫),更是將觸角涉及到非結構化資料的領域,那麼對於不熟悉這些資料存取技術的商務分析人員來說,取得資料是非常頭痛的事。「自助式商業智慧」是微軟一直在推廣的新觀念,相對於SQL Server上的Analysis Services以及Reporting Services,Excel 2013上已經提供對應的PowerPivot以及PowerView,那麼用來存取資料(ETL)用的Integration Services是否也該有對應的產品提出呢?Data Explorer正是用來填滿這一塊的空缺,它的定位就是自助式的ETL工具

 

Data Explorer是微軟雲端實驗室的研發計畫,我大在一年多前就已經開始使用第一個測試版,當時還正是微軟大推"Metro Style"的時期,所以Data Explorer作成超炫的Metro Style風格,不過老實說有點炫過頭,導致使用介面上障礙很大。

 

cloud4_2

這是上一版的使用者介面

 

在這一版Data Explorer事與Excel進行深度整合,所以介面上收斂了很多,完全依照Excel的風格進行設計,但是整體操作上變得更為直覺易用,更符合「自助式ETL」的產品定位,各位可以到以下網址下載安裝Data Explorer for Excel (目前支援Excel 2010 sp1以及Excel 2013)。

 

http://www.microsoft.com/en-us/download/details.aspx?id=36803

 

 

 

image

 

 

 

目前Data Explorer支援以下資料型態:

  • 資料庫:SQL Server、 SQL Azure、Access、Oracle、DB2,這次還增加了MySQL
  • 檔案:Excel、CSV、XML、文字檔以及資料夾結構
  • SharePoint清單
  • OData
  • Hadoop
  • Windows Azure Marketplace(可以線上購買資料的市集)
  • Active Directory
  • Facebook (目前我有成功抓取我的Facebook資料但是轉到Excel上還有問題,有可能是bug)
  • HTML(自動擷取HTML文件中的表格物件)

 

我在此示範一下幾個比較有趣的非結構化資料擷取的方式。首先我進入奇摩拍賣搜尋指定的產品,既可以看到拍賣網站上面的相關拍賣項目清單。

image

 

我只需要點選「Data Explorer」頁籤的「From Web」,將剛才的網址貼在URL文字方塊中。

image

 

Data Explorer就會自動擷取該網頁內容,並且將裡面<table/>結構解析成為資料表,可供之後進行後續的分析。

image

 

接下來例如我要分析某個開發中的Visual Studio方案中的檔案內容,我只要點選「Data Explorer」頁籤的「From File」->「From Foler」,輸入該方案的路徑。

image

 

Data Explorer就能夠自動解析該資料夾下的所有檔案,並將這些檔案的資訊主換成結構化的表格回傳。只需要點選右下方的「Done」,就能將這些資料轉入Excel。

image

 

然後我就可以進一步利用Excel 2013中的Power View進行分析。

image

 

這是不是非常方便呢?我個人認為如果微軟能夠將Data Explorer能存取的分結構化資料種類進一步擴充,甚至提供SDK來讓大家客製化擴充,並與現行的PowerPivot與Power View作更深度的整合(例如省掉轉入Excel再加工的過程),那麼這將是非常有競爭力的非結構化資料分析解決方案,不過這只是一個技術預覽版,就讓我們繼續期待更強大的正式版問世吧...

 

 

 

亞洲資採臉書粉絲團:www.facebook.com/AsiaMinerTW

asiaminerQR

 

 

Allan Yiin

CTO, AsiaMiner