爬蟲是????
禮拜六的功課
全文引用:https://docs.google.com/presentation/d/1UUjW_3aQXY6IAafsMqcqQlS3LY_XjQR2-uC7r6m_wVw/edit#slide=id.g336da0c01a_0_256
https://www.youtube.com/watch?v=RntkmVtFS_g
@@ user-agent
- navigator.userAgent
@@ cookie
- 紀錄一連串的user 動作,也可能存在session
--> query string parameters (get)
--> form data (post)
匯出到postman ---> copy to cURL
爬蟲:python , go, php, ruby -----> Server-side Languages
你這次的request會得到什麼結果是根據你這次的request送什麼內容過去,送什麼request header,送什麼URL和Query過去,相同的內容照理應該得到相同的回覆,前面送的後面的其他request不會影響你。
有關係的是server不是client
server 有防範機制,抽絲剝繭為什麼server不給的原因
如何抓,模擬使用者操作的方式,分析request1.繞過它:ex: mobile 或 app沒有放
2.正面對決: online sevice: death by captcha (http://www.deathbycaptcha.com/user/login)
3.鑽洞
Headless: 人做什麼,程式就做什麼
---> async 指令 建議用promise
---> const $ = cheerio.load("a") ---> a = 要抓的內容
var orig = ' foo ';
console.log(orig.trim());
foo
var orig = ' foo ';
console.log(orig);
foo