爬蟲(筆記)

  • 272
  • 0
  • 2018-08-26

爬蟲是????

禮拜六的功課

全文引用:https://docs.google.com/presentation/d/1UUjW_3aQXY6IAafsMqcqQlS3LY_XjQR2-uC7r6m_wVw/edit#slide=id.g336da0c01a_0_256

https://www.youtube.com/watch?v=RntkmVtFS_g

@@ user-agent

  1. navigator.userAgent

@@ cookie

  1. 紀錄一連串的user 動作,也可能存在session

--> query string parameters (get) 

--> form data (post) 

匯出到postman ---> copy to cURL

爬蟲:python , go, php, ruby -----> Server-side Languages

你這次的request會得到什麼結果是根據你這次的request送什麼內容過去,送什麼request header,送什麼URL和Query過去,相同的內容照理應該得到相同的回覆,前面送的後面的其他request不會影響你。

有關係的是server不是client

server 有防範機制,抽絲剝繭為什麼server不給的原因

如何抓,模擬使用者操作的方式,分析request1.繞過它:ex: mobile 或 app沒有放

2.正面對決: online sevice: death by captcha (http://www.deathbycaptcha.com/user/login)

3.鑽洞

Headless: 人做什麼,程式就做什麼

---> async 指令 建議用promise

---> const $ = cheerio.load("a") ---> a = 要抓的內容

var orig = '   foo  ';
console.log(orig.trim());
foo

var orig = '   foo  ';
console.log(orig);
   foo