摘要:Lucene.Net how to index word,excel,pdf..
若我們要針對一些 word , ppt 或各式各樣的檔案建立索引時 ,
首先必須能先從這些檔案取出文字內容 , 而下面我們將有使用 IFilter 的範例
有關 IFilter 的介紹可參考 網址
在 CodeProject 有一專案包裝了 IFilter , 並且解決了一些問題 ,
底下的 Sample 會 Demo 如何使用
Step 1 : 準備一 Word 檔案 , 其內容為一新聞 , 內容如下列網址
Step 2 : 請從上面的網址下載其 DLL 檔案
Step 3 : 引入 NameSpace
using EPocalipse.IFilter;
Step 4 :
TextReader reader = new FilterReader("C:\\test.docx");
using (reader)
{
this.txt_Content.Text = reader.ReadToEnd();
}
Result :
全國機器人大賽 250隊競技自由時報 – 2013年9月29日 上午6:11相關內容http://tw.news.yahoo.com/lightbox/%E5%85%A8%E5%9C%8B%E6%A9%9F%E5%99%A8%E4%BA%BA%E5%A4%A7%E8%B3%BD-250%E9%9A%8A%E7%AB%B6%E6%8A%80-photo-221124981.html看相片全國機器人大賽 250隊競技〔自由時報記者周敏鴻/桃園報導〕「 WRO國際奧林匹克機器人大賽」全國賽,昨起兩天在健行科技大學舉行,兩百五十支隊伍齊聚較勁,努力爭取國家代表權,十一月前往印尼雅加達參加國際賽,為國爭光。復旦國小舞蹈才藝班、育達高中熱舞社昨用精彩表演為機器人大賽揭開序幕,縣長吳志揚也到場為選手們打氣。他說,創作機器人必須有縝密的思考能力與邏輯概念,需要跨領域的專業,令人佩服。爭取國家代表權的兩百五十支隊伍,來自全國各地學校,分為競賽、創意賽、足球賽與大專院校等組。縣府教育局長吳林輝說,今年競賽的主題是「世界遺產」,許多隊伍結合重要文化遺產創作機器人,例如印尼蠟染機器人、婆羅浮屠機器人等。
目前測試在讀取 word , ppt , excel , text 的文字讀取都可以 work
資料來源 :