为什么分布式爬虫不会选择免费代理IP
很多人在进行爬虫工作中,不使用代理IP就可以完成工作,还有很多人在进行爬虫工作时选择免费代理,也能完成工作,但在分布式爬虫工作中,却没有人选择免费代理IP,这是为什么呢?
一般的小爬虫工作任务,不使用代理IP也可以完成,工作量再大一点使用免费代理IP也可以完成,但如果是分布式爬虫,说明任务量非常大,对工作效率要求比较高,而免费代理无法满足要求。
免费代理速度慢,稳定性差,有效率低,一般的小爬虫不追求效率的话,慢慢的爬也是可以爬完的;分布式爬虫如果使用免费代理IP进行工作,就达不到分布式爬虫的目的。
免费代理IP大多为透明代理和普匿代理IP,高匿代理IP较少,如果选择高匿代理IP,IP量不足以支撑分布式爬虫所需要的IP量;如果选择透明代理IP和普匿代理IP,很容易被目标网站识别,因为这两者都会暴露用户正在使用代理IP发送请求。