首頁常見問題正文

為什么用Selenium做爬蟲?Selenium爬蟲機(jī)制優(yōu)勢(shì)

更新時(shí)間:2023-10-30 來源:黑馬程序員 瀏覽量:

Selenium是一個(gè)Web應(yīng)用的自動(dòng)化測(cè)試框架,可以創(chuàng)建回歸測(cè)試來檢驗(yàn)軟件功能和用戶需求,通過框架可以編寫代碼來啟動(dòng)瀏覽器進(jìn)行自動(dòng)化測(cè)試,換言之,用于做爬蟲就可以使用代碼啟動(dòng)瀏覽器,讓真正的瀏覽器去打開網(wǎng)頁,然后去網(wǎng)頁中獲取想要的信息!從而實(shí)現(xiàn)真正意義上無懼反爬蟲手段。

例如在拉勾網(wǎng)上搜索傳智播客,找到對(duì)應(yīng)的ajax請(qǐng)求地址,使用postman來測(cè)試數(shù)據(jù):
1698652035728_爬蟲.png

前幾次可能會(huì)獲取到數(shù)據(jù),但多幾次則會(huì)出現(xiàn)操作頻繁請(qǐng)稍后再試的問題,很多 API 也都進(jìn)行了加密處理:

1698652115537_爬蟲2.png

而通過Selenium可以操作瀏覽器,打開某個(gè)網(wǎng)址,接下來只需要學(xué)習(xí)其API,就能獲取網(wǎng)頁中需要的內(nèi)容了!

反爬蟲技術(shù)只是針對(duì)爬蟲的,例如檢查請(qǐng)求頭是否像爬蟲,檢查IP地址的請(qǐng)求頻率(如果過高則封殺)等手段

而Selenium打開的就是一個(gè)自動(dòng)化測(cè)試的瀏覽器,和用戶正常使用的瀏覽器并無差別,所以再厲害的反爬蟲技術(shù),也無法直接把它干掉,除非這個(gè)網(wǎng)站連普通用戶都想放棄掉(12306曾經(jīng)迫于無奈這樣做過)


分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!