关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

爬虫ip被封的后果是什么?怎么办?

发布时间:2022-05-16 23:52:08

被封后见过最多的就是被限访,但封禁时长和终端的不同设定有关,如某猫爬取后只是限制5分钟,过后还是可再用,而有些终端则设置短时内达到一定数量任务请求后就直接封号不会解封。还有的直接封禁可疑ip段,这种比较狠,可能被人工怀疑判定为CC攻击,因为我之前就有这样做过,深度分析日志或可看出。

被封说明爬虫ip质量不合格!如发放的末段ip相同概率大或短时内请求任务高度重叠,一般这种出现于低质共享池。

可以先跑一定量(不是正式爬取)测下终端大概限制阈值,而后再合理安排代理ip数量及控制访速等分爬取,最好节点多样多更换、同时请求的任务数不要太高,可增加通道数。经过多番测试使用还是隧道代理更便捷快速,可以试用下,只要隧道代理带宽具足能满足众多使用场景。

IDCSTACK.png

优化软件制作站点地图时应也是通过爬虫去抓取URL,亲测普匿同ip几分钟内爬取好几千页都还是没问题。很多品牌声称是高匿高匿,其实用起来并不高匿,有些连header字段就被识别过滤掉。

如果某个页面是很久的404页且站内无入口还被经常访问到,这种ip就非常可疑。类似一些JS等文件短时间内被经常访问,这正常吗。

/template/Home/ZdsjuX4/PC/Static