如何能高效快速的找出爬虫IP?

一开始是采用检测一个ip在短时间内多次向本站发出不同的HTTP请求,就会认为这是一个爬虫的方式来将其ip封一段时间。

但发展到后面,对于单个ip来说,爬虫攻击者降低发出请求的速率逃过了反爬的检测,同时在网上买了高质量的代理服务(比如快代理 - 高速http代理ip每天更新)。每天有上万个代理ip,我做了流控也能被他们较快的爬取数据。

请问各位有什么靠谱的方式来识别抵御这些恶意行为吗?

参与4

1同行回答

sanangel592sanangel592系统工程师福建
这个爬虫和反爬没有绝对的方法。目前一部分WAF(WEB应用防火墙)可以通过一些技术手段实现反爬的功能,比如:1、通过单IP的请求数量判断;2、因为爬虫访问的页面相对固定,所以可以判断某个IP的请求集中度也可以判断;3、在判断某个IP可能为爬虫时,可发出挑战机制(发出一段需要渲染的ja...显示全部

这个爬虫和反爬没有绝对的方法。目前一部分WAF(WEB应用防火墙)可以通过一些技术手段实现反爬的功能,比如:
1、通过单IP的请求数量判断;
2、因为爬虫访问的页面相对固定,所以可以判断某个IP的请求集中度也可以判断;
3、在判断某个IP可能为爬虫时,可发出挑战机制(发出一段需要渲染的javascript),这样对方若不是浏览器而是爬虫,就不能通过判定。
另外,还是要根据你自己的实际应用场景决定是否加入验证码等机制。

收起
系统集成 · 2017-08-21
浏览1517

提问者

江达鑫
网络工程师绿盟科技

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-08-17
  • 关注会员:2 人
  • 问题浏览:3795
  • 最近回答:2017-08-21
  • X社区推广