一开始是采用检测一个ip在短时间内多次向本站发出不同的HTTP请求,就会认为这是一个爬虫的方式来将其ip封一段时间。
但发展到后面,对于单个ip来说,爬虫攻击者降低发出请求的速率逃过了反爬的检测,同时在网上买了高质量的代理服务(比如快代理 - 高速http代理ip每天更新)。每天有上万个代理ip,我做了流控也能被他们较快的爬取数据。
请问各位有什么靠谱的方式来识别抵御这些恶意行为吗?
这个爬虫和反爬没有绝对的方法。目前一部分WAF(WEB应用防火墙)可以通过一些技术手段实现反爬的功能,比如:1、通过单IP的请求数量判断;2、因为爬虫访问的页面相对固定,所以可以判断某个IP的请求集中度也可以判断;3、在判断某个IP可能为爬虫时,可发出挑战机制(发出一段需要渲染的javascript),这样对方若不是浏览器而是爬虫,就不能通过判定。另外,还是要根据你自己的实际应用场景决定是否加入验证码等机制。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30