Lucene.Net how to index word , excel...etc

摘要:Lucene.Net how to index word,excel,pdf..

若我們要針對一些 word , ppt 或各式各樣的檔案建立索引時 ,

 

首先必須能先從這些檔案取出文字內容 , 而下面我們將有使用 IFilter 的範例 

 

有關 IFilter 的介紹可參考 網址

 

CodeProject 有一專案包裝了 IFilter , 並且解決了一些問題 , 

 

底下的 Sample  會 Demo 如何使用 

 

 

Step 1 : 準備一 Word 檔案 , 其內容為一新聞 , 內容如下列網址

 

內容網址

 

 

 

Step 2 : 請從上面的網址下載其 DLL 檔案 

 

 

 

Step 3 : 引入 NameSpace

 

using EPocalipse.IFilter;

 

 

 

Step 4 : 

  TextReader reader = new FilterReader("C:\\test.docx");
        using (reader)
        {
            this.txt_Content.Text = reader.ReadToEnd();
        }

 

 

 

Result : 

 

全國機器人大賽 250隊競技自由時報 – 2013年9月29日 上午6:11相關內容http://tw.news.yahoo.com/lightbox/%E5%85%A8%E5%9C%8B%E6%A9%9F%E5%99%A8%E4%BA%BA%E5%A4%A7%E8%B3%BD-250%E9%9A%8A%E7%AB%B6%E6%8A%80-photo-221124981.html看相片全國機器人大賽 250隊競技〔自由時報記者周敏鴻/桃園報導〕「 WRO國際奧林匹克機器人大賽」全國賽,昨起兩天在健行科技大學舉行,兩百五十支隊伍齊聚較勁,努力爭取國家代表權,十一月前往印尼雅加達參加國際賽,為國爭光。復旦國小舞蹈才藝班、育達高中熱舞社昨用精彩表演為機器人大賽揭開序幕,縣長吳志揚也到場為選手們打氣。他說,創作機器人必須有縝密的思考能力與邏輯概念,需要跨領域的專業,令人佩服。爭取國家代表權的兩百五十支隊伍,來自全國各地學校,分為競賽、創意賽、足球賽與大專院校等組。縣府教育局長吳林輝說,今年競賽的主題是「世界遺產」,許多隊伍結合重要文化遺產創作機器人,例如印尼蠟染機器人、婆羅浮屠機器人等。

 

目前測試在讀取 word , ppt , excel , text  的文字讀取都可以 work

 

 

資料來源 : 

 

IFilter wiki