更新時間:2023-03-13 來源:黑馬程序員 瀏覽量:
多進程爬蟲一般也被視為分布式爬蟲的基礎,在單機上可以使用。通常來說大型網(wǎng)站采用分布式來部署服務器,能夠采用多進程同時間在不同的服務器上進行爬取。
在實際的數(shù)據(jù)采集過程中,既考慮網(wǎng)速和響應的問題,也需要考慮自身機器的硬件情況,來決定設置多線程或者多進程。因此,如果需要爬取的數(shù)據(jù)任務量很大,那么可以考慮多進程+多線程的機制。先創(chuàng)建多個進程完成不同的任務,然后每個進程內(nèi)部再創(chuàng)建多個線程,最后完成需要爬取到的數(shù)據(jù)。