防爬虫 - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

证券防爬虫·2017-08-18

匿名用户

爬虫的目的就是大规模地、长时间地获取数据，跟我们正常浏览器获取数据相比，虽然机理相差不大，但总是一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝。关于爬虫长时间爬取数据，可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一：设...

证券防爬虫·2017-08-18

sprewellkobe · TX　擅长领域：云计算, 安全, 网络

445 会员关注

这个问题太难了，所有性价比就是收益/成本，成本好算，无论买商用产品还是自己简单开发，成本都很好核算，难的是收益，这取决于，您觉得爬虫给您带来的危害到底多痛我说一个最便宜的办法，就是在您的负载均衡上做一个简单的对于IP的频率限制，频率设的高一些，可以一定程度上限制爬虫再说一...

电信运营商防爬虫·2017-08-16

sprewellkobe · TX　擅长领域：云计算, 安全, 网络

445 会员关注

防爬虫的做法比较多，从业务端到运维端，从简单到复杂：先说几个基本的办法：1，频率限制，在lb nginx上做，缺点也很明显，容易误杀2，对header、ua等做一些判断限制，但header、ua容易伪造比较高级一些的：1，更多的混淆内容或者通过js输出内容，这样让爬虫抓取的成本提高2，对于误拦可以结合验证码...

赞同1

回答1

关注2

软件开发网络爬虫·2017-08-16

目前爬虫的功能已经足够强大，如何才能规避爬虫，减少爬虫带来的危害？