Excel 2010 Fuzzy Lookup增益集用中文也能通!!

2011-05-16

11818
0

Dotblogs 的標籤: Excel 2010 ，Fussy Lookup ，Text Mining

在進行日常資料整理或是分析時，最怕遇到那些髒資料，但是髒資料卻永遠陰魂不散，所以最後就必須人工整理。"人工整理"這個辦公室內永遠的噩夢有沒有可能解決的一天?看起來有一道曙光出現了。微軟BI Lab推出了最新的實驗性工具:Excel 2010 Fussy Lookup增益集。

甚麼Fuzzy Lookup(模糊查閱)，這個名詞其實早就在SQL Server 2005的SSIS中出現了，只是老實說，我幾乎沒有使用它的可能性，因為企業資料倉儲的資料過於巨大，若是模糊比對出了問題，我們小要透過人工覆核的可能性都沒有，但是換到辦公室中就不一樣了，因為如果能透過電腦幫我們處理大部分的資料比對，而我們只需要作人工覆核即可確保資料比對的正確性，個人認為這個功能放在Excel上市再聰明不過的想法(繼之前Excel 2007 Data Mining Add-ins之後，唉…又講到傷心處，這次微軟要堅持正確的方向啊，別再產品出一代就沒下文了…)。

軟體各位可以到這個網址去下載，系統需求很簡單，就是你必須要有Excel 2010。此外，根據筆者實際測試的結果，Fuzzy Lookup計算起來其實蠻耗資源的(尤其是CPU)，所以那台電腦最好不要太弱。

http://www.microsoft.com/downloads/en/details.aspx?FamilyID=eb408616-9903-440a-a14f-97548171d137

安裝步驟很簡單，就跟一般正常微軟產品一樣，只要不停地按下一步就可以完成。

開啟後，會有個Fuzzy Lookup的新Ribbon，裡面就只有一個功能按鈕。

安裝程式中有附一個範例，他的情境是當公司秘書要整理幾家主要往來公司的財務資料時(如以下選單)，他手上取得了一分前500大企業的財報資訊，想說這些往來企業規模都不小，應該可以從裡面查到相關的財報資料吧，可惜天不從人願，手上這份前500大企業名單的公司名稱格式與公司內紀錄的格式不同，例如我們這邊第一家公司紀錄的是「AMAZON COM INC STK」，而前500大名單內則是「Amazon.com Inc 」。這可頭大了，這該如何比對。

基本上設計方法很簡單。要"被"比對的資料(不完整的資料)請放在左邊，而完整可用於比對的資料則放在右邊，用滑鼠可以點選兩邊要互相比對的欄位，在此是選取兩邊的公司名稱，點選中間圖示即可加入比對欄位清單，此外，他還很貼心的支援設計不同資料的比對組態檔，例如電話號碼、郵遞區號…等都可以設定不同的參數。此外，相較於精確比對，模糊比對最重要的就是要設定相似性門檻值(Similarity Threshould，要多像才會被視為有意義的比對)，個人建議在實際處理大量資料之前，最好先利用少量資料測試一下相似性門檻值的合理設定範圍，以免之後白費時間。

目前他使用的演算法其實不困難，在此利用的是Jaccard similarity，其實與被視機率有點像。他是比對兩個字串相符(交集)的字元除以原本的字元數，以換算出兩個字串的相似程度。不過他在此用的是改良過的Jaccard similarity，他加入了幾個比較重要的概念。

除了字元斷字之外，還會根據各語系的語言特性根據詞彙來斷字。例如「AsiaMiner is Business Intelligence Expert」，他就不會是一個字母一個字母斷字，而是分割成5個單字。目前預設斷字模式是根據英文，但是他提到在屬性設定中是可以支援其他語言的，至於支援的語言要參照他所附的參考網頁，結果我一看，那就然是SQL Server全文檢索功能的介紹頁面，裡面就提到了只要輸入地區碼 1028 即表示繁体中文。這有意思了，因為筆者之前看過所有的Text Mining都是不支援中文的，所以稍後我也會用中文資料來試試。
此外，他也根據詞意相似性，將類似的詞彙轉換合併，同時加重這類詞彙的權重，如果遇到專˙有名詞字根，也相同會加強權重。

說了那麼多，究竟比對的結果如何，以範例來看，他的效果還不錯，當然，通常只使用他的範例資料是有可能事先作弊的。那我們就拿真實的資料試試看，當然我準備的是中文的資料。