Excel另類應用:PDF檔案表格資料的再利用!

Excel另類應用:PDF檔案表格資料的再利用!

我個人經常把Excel用在資料處理上,因為Excel幾乎可以將網頁的表格資料直接匯入Excel工作表中進行處理,這對於將網頁資料再利用是非常方便。最近大學繁星放榜,為了比較本校所使用的繁星推薦方案的成效,便到處收集各校的繁星榜單,大部分的學校都有公告在網路上,只是檔案有的用網頁,有的用PDF的格式。用網頁的表格方式很容易就可匯出至Excel工作表,但是用PDF格式的檔案,如果是表格圖片資料再利用的價值就比較低,除非再用辨識軟體把它辨識為文字。如果是PDF表格內容利用Acrobat Writer是可以轉成完整的Excel工作表,如果利用選取複製的方式,將表格中的文字貼至Excel工作表,貼出來的結果是變成一行,如下圖的結果。

image原始的表格

image複製貼至Excel工作表的結果

很明顯利用window的剪貼簿複製pdf表格資料,只有複製到表格中每一格文字內容上換行的字元,貼回去Excel中Excel自動依分行符號去切割資料,並不會將表格的欄位結構複製上去,雖然這樣的結果不是很滿意,但是已經比要自己 key in 要省事多了,但是要把這些資料放回原來表格的位置,除了一個資料一個資料放回去表格位置的笨方法,還有沒有更快的方法?仔細觀察這個貼上去的資料是有規律性,只要有規律性就好處理,這個資料的規律性很明顯是四列資料一個循環。

我們可以這樣做:首先幫資料加標記,在旁邊新增一欄標記資料上輸入1、2、3、4,然後選取複製貼上,將每筆資料加上對應的數字,如下圖中的B欄

image

再插入一列標題列

image

然後只要點選工作表左上角image選取整個工作表,再點選[資料]\[篩選]

image

點選B欄image符號叫出篩選條件

image

取消全選,只要依序分別篩選1、2、3、4即可將資料分類出來,例如只選取1

image

按下[確定],即可將學號資料分離出來

image

再將篩選的資料複製,貼至新的工作表。

image

再依序篩選剩下的2、3、4,重複上述步驟,再將標記欄刪掉,即可重建原來的資料表格

image

cool      歡迎引用,請注明來源出處!

作者:楊煥謀