通用網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬蟲有什么區(qū)別？

更新時間:2023-05-09 來源:黑馬程序員瀏覽量:

IT培訓班

通用網(wǎng)絡(luò)爬蟲

　　通用網(wǎng)絡(luò)爬蟲(General Purpose Web Crawler)又稱全網(wǎng)爬蟲(Scalable Web Crawler),是指訪問全互聯(lián)網(wǎng)資源的網(wǎng)絡(luò)爬蟲。通用網(wǎng)絡(luò)爬蟲是“互聯(lián)網(wǎng)時代”早期出現(xiàn)的傳統(tǒng)網(wǎng)絡(luò)爬蟲，它是搜索引擎(如百度、谷歌、雅虎等)抓取系統(tǒng)的重要組成部分，主要用于將互聯(lián)網(wǎng)中的網(wǎng)頁下載到本地，形成一個互聯(lián)網(wǎng)網(wǎng)頁的鏡像備份。進用網(wǎng)絡(luò)爬蟲的目標是全互聯(lián)網(wǎng)資源，數(shù)量巨大且范圍廣泛。

這類網(wǎng)絡(luò)爬蟲對爬行速度和存儲空間的要求是非常高的，但是對抓取網(wǎng)頁的順序的要求相對較低。

聚焦網(wǎng)絡(luò)爬蟲

　　聚焦網(wǎng)絡(luò)爬蟲(Focused Web Crawler)又稱主題網(wǎng)絡(luò)爬蟲(Topical Web Crawler),是指有選擇性地訪問那些與預(yù)定主題相關(guān)的網(wǎng)頁的網(wǎng)絡(luò)爬蟲。它根據(jù)預(yù)先定義好的目標，有選擇性地訪問與目標主題相關(guān)的網(wǎng)頁，獲取所需要的數(shù)據(jù)。

與通用網(wǎng)絡(luò)爬蟲相比，聚焦網(wǎng)絡(luò)爬蟲只需要訪問與預(yù)定主題相關(guān)的網(wǎng)頁，這不僅減少了訪問和保存的頁面數(shù)量口而且提高了網(wǎng)頁的更新速度?？梢姡劢咕W(wǎng)絡(luò)爬蟲在一定程度上節(jié)省了網(wǎng)絡(luò)資源，能滿足一些特定人群采集特定領(lǐng)域數(shù)據(jù)的需求。

上一篇：怎樣對MySQL的limit分頁查詢進行優(yōu)化？ 下一篇：什么是表層網(wǎng)頁？什么是深層網(wǎng)頁？

全國中心

熱門課程

通用網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬蟲有什么區(qū)別？

最新資訊

相關(guān)閱讀

熱門課程推薦