前情提要一下
因為工作關係一直要複製貼上又礙於網路速度還有公司配的電腦常常當機這回事
基於一個偷懶偷到最高點的原則,就選擇用爬蟲來解決我的工作.....不對是不必要的麻煩
以下紀錄一下學習的過程
安裝
一般來說,如果你是像我一樣,使用Mac當自己隨地工作的選項
Mac預設幫你安裝好了Python(我的是2.7),跟必備的套件安裝工具pip等等
而你需要安裝的大抵上就是這兩者了,沒意外的話你還需要安裝一些我們實際上會用到的函式庫
像是以下這些,我個人比較推薦pyQuery,因為他標榜比照JavaScript的jQuery設計,且可以做出比較直覺的篩選
- pyQuery
- beautifulsoup4 (這邊不介紹,如果你有興趣可以看這篇)
基本語法學習
這邊一樣要請出大學一路陪伴那些抱佛腳考試的大神了
https://openhome.cc/Gossip/Python/index.html
理論上來說,Python的寫法更偏向原生C語言的語感,不過你如果學過C# or Java,甚至是VB,都應該能夠很快的無痛上手
ㄧ般來說搭配良葛格大神的網站介紹你就有實作的基本能力了
不過如果你想確切的理解這個語言的特性及功能,你也可以到官方文件中的Tutorial去做更深度的學習
然後開始做一些其他的項目,至於做些什麼這邊就不多說了
推薦在實作之前要理解的幾點條目:
指令互動環境
https://openhome.cc/Gossip/Python/InteractiveShell.html
如果你平常習慣了把程式寫完再做測試的大學生交作業寫法
Python提供了類似IDE內常有的即時運算視窗功能的指令互動環境
你可以直接在你的終端機介面輸入 "Python"(不用在意大小寫)
如果你成功的做到了上述的環境建置,理論上在你輸入python的同時依照你macOS預設安裝的Python版本會看到上述這些資訊
進入這個畫面之後即可以較快捷的步驟進行一些指令的測試(像是新的函式庫能不能順利運行...etc)
集合
https://openhome.cc/Gossip/Python/SetType.html
import collections
#宣告一個空集合
a = {}
a['key'] = 'value'
如上,在爬蟲當中你也許會遇到的需要合併多個資料來源篩選的結果及排序,
這時候集合搭配內建的collections就是你的必備品了
另外最常用到的就可能是正則表達式以及中文編碼問題的處理了,這邊我們下一篇文章再作討論
測試
在一般使用Python來做稀奇古怪的小玩具的情境來說
你可以直接使用電腦內建的終端機輸入 "Python YourFile.py" 來執行你副檔名為py的檔案,或是直接進入Python的指令互動模式(如下圖)
一般來說如果你成功了安裝Python執行環境,當你在你的終端機介面選擇上述的兩種方式應該都能成功執行結果,
就看情況選擇你要的執行方法吧,下一篇繼續記錄如何存取、新增檔案並正式的使用pyQuery這套Python的函式庫來演示如何設計自己的爬蟲
順便推薦幾篇簡易的實作文章資源:
大數學堂-網路爬蟲教學:
五分鐘的單元影片式學習,主要使用beautifulsoup4函式庫輔助開發,
並有Facebook早期Graph API版本內容的抓取方法(雖然現在應該是不能這樣抓啦xD)
以及在Windows 作業系統上可能會遇到的安裝問題
[pyquery] 抓網頁資料的神器:
淺顯易懂的讓你明白最基本的pyQuery用法
,雖然有些中文編碼上的問題以及多語系網站的抓取問題
但一般來說使用文章中的方法就能抓到個五六成你要的東西
感謝觀看,若你能夠留下一些建議與感想
都會成為我寫文章的動力,感謝!!