首頁常見問題正文

為什么用Selenium做爬蟲？Selenium爬蟲機(jī)制優(yōu)勢

更新時間:2023-10-30 來源:黑馬程序員瀏覽量:

Selenium是一個Web應(yīng)用的自動化測試框架，可以創(chuàng)建回歸測試來檢驗(yàn)軟件功能和用戶需求，通過框架可以編寫代碼來啟動瀏覽器進(jìn)行自動化測試，換言之，用于做爬蟲就可以使用代碼啟動瀏覽器，讓真正的瀏覽器去打開網(wǎng)頁，然后去網(wǎng)頁中獲取想要的信息!從而實(shí)現(xiàn)真正意義上無懼反爬蟲手段。

例如在拉勾網(wǎng)上搜索傳智播客，找到對應(yīng)的ajax請求地址，使用postman來測試數(shù)據(jù)：
1698652035728_爬蟲.png

前幾次可能會獲取到數(shù)據(jù)，但多幾次則會出現(xiàn)操作頻繁請稍后再試的問題，很多 API 也都進(jìn)行了加密處理：

1698652115537_爬蟲2.png

而通過Selenium可以操作瀏覽器，打開某個網(wǎng)址，接下來只需要學(xué)習(xí)其API，就能獲取網(wǎng)頁中需要的內(nèi)容了!

反爬蟲技術(shù)只是針對爬蟲的，例如檢查請求頭是否像爬蟲，檢查IP地址的請求頻率(如果過高則封殺)等手段

而Selenium打開的就是一個自動化測試的瀏覽器，和用戶正常使用的瀏覽器并無差別，所以再厲害的反爬蟲技術(shù)，也無法直接把它干掉，除非這個網(wǎng)站連普通用戶都想放棄掉(12306曾經(jīng)迫于無奈這樣做過)

上一篇：Python中列表和元組有什么不同? 下一篇：Python培訓(xùn)靠譜嗎？在北京培訓(xùn)Python大概多少錢？

最新資訊

有哪些頁面置換算法?
2024-05-22
如何解決Redis的并發(fā)競爭Key問題?
2024-05-22
varchar和char的使用場景?
2024-05-22
協(xié)程為何比線程還快?
2024-05-17
TIME_WAIT過多是因?yàn)槭裁?
2024-05-17
range和xrange的區(qū)別是什么?
2024-05-17

相關(guān)閱讀

分享到：

javaee

python大數(shù)據(jù)

web

ui

cloud

test

c

netmarket

pm

Linux

movies

robot

uids

AI

jdbc

選擇校區(qū)

北京校區(qū)

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

申請試聽名額

熱門課程推薦

更多>>

首頁|校區(qū)分布|師資力量|關(guān)于我們|報名流程

常見問題|技術(shù)資訊

江蘇傳智播客教育科技股份有限公司版權(quán)所有
Copyright 2006-2023, All Rights Reserved

在線咨詢我要報名

和我們在線交談！