防爬虫的做法比较多,从业务端到运维端,从简单到复杂:
先说几个基本的办法:1,频率限制,在lb nginx上做,缺点也很明显,容易误杀2,对header、ua等做一些判断限制,但header、ua容易伪造
比较高级一些的:1,更多的混淆内容或者通过js输出内容,这样让爬虫抓取的成本提高2,对于误拦可以结合验证码跳转来降低误拦
当然也可以采购一些商用的产品,这些产品具有机器学习等功能,可以更精准的识别爬虫,并进行有效阻断
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30