大部分的package主要支援讀取.docx檔案,但使用情境需要處理文字內容的話,
這邊使用的方式是轉換成.docx檔,再運用相對應的package處理。
步驟一:將檔案轉成.docx檔
import win32com.client
import os
word = win32com.client.Dispatch("Word.Application")
word.visible = False
wordfile = word.Documents.Open(filepath)
wordfile.SaveAs2(filepath+'x', FileFormat = 16) #另存新檔,附檔名多添加x,儲存成docx格式代碼
wordfile.Close()
word.Quit()
os.remove(filepath)#直接將原始.doc檔案刪除
步驟二:截取檔案字串
from docx import Document #讀取docx檔案
import re
document = Document(filepath)
word_text = '\n'.join(paragraph.text for paragraph in document.paragraphs) #合併內容
result = re.findall('要找的內容'+r'\d+.\d+',word_text)
同時也歡迎追蹤Tableau Public Gallery- MR.360 |聚沙成塔,裡面包含文章中的案例實作,
期待能帶給您新的啟發或靈感。
未來文章將喬遷新址「一趟數據分析之旅」,歡迎追蹤繼續支持,您將不會錯過任何新知識。