Python-爬蟲13-實作-1爬取PPT網站

抓取PPT網站上的資料
目標位置:
https://www.ptt.cc
+/bbs/Gossiping/index.html


  • 先把html全抓回來
  • 紀錄一個cookie是否年滿18歲的變數
  • 套件抓取今天日期, 去掉開頭的 '0' 符合 PTT 網站格式
  • 取得上一頁href
  • 抓取所有文章
  • 判斷文章是否是今天發佈
  • 取得推文數
  • 取得文章連結
  • 取得標題
  • 取得作者
  • 把我們要的資料整理好後,存入一開始的空陣列 後回傳(return)回去  
...繼續閱讀 »