[Python] 4.讀取word .doc檔案

大部分的package主要支援讀取.docx檔案,但使用情境需要處理文字內容的話,
這邊使用的方式是轉換成.docx檔,再運用相對應的package處理。

步驟一:將檔案轉成.docx檔

import win32com.client
import os

word = win32com.client.Dispatch("Word.Application")
word.visible = False

wordfile = word.Documents.Open(filepath)
wordfile.SaveAs2(filepath+'x', FileFormat = 16) #另存新檔,附檔名多添加x,儲存成docx格式代碼
wordfile.Close()

word.Quit()

os.remove(filepath)#直接將原始.doc檔案刪除

步驟二:截取檔案字串

from docx import Document #讀取docx檔案
import re 

document = Document(filepath)
word_text = '\n'.join(paragraph.text for paragraph in document.paragraphs) #合併內容

result = re.findall('要找的內容'+r'\d+.\d+',word_text)

 

同時也歡迎追蹤Tableau Public Gallery-聚沙成塔,裡面包含文章中的案例實作,
期待能帶來啟發或新的想法。