网络爬虫 - 主题 - twt企业IT交流平台

问题
热度排序 时间排序

汽车网络爬虫·2017-08-18

445 会员关注

不太清楚您说的是阻断机制还是识别机制如果是阻断机制，除了登陆限制外，还有：1，js跳转，直接跳转验证码界面，而验证码的形式也有很多种2，蜜罐，这是比较新潮的做法，即发现是攻击者后不是拒绝而已引诱他进入蜜罐继续收集行为3，3层阻断，传统的登陆限制等都是7层，但可以通过3层阻断，这样可以...

汽车网络爬虫·2017-08-18

匿名用户

网络爬虫工作原理　　1、聚焦爬虫工作原理及关键技术概述　　网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入...

汽车网络爬虫·2017-08-18

匿名用户

从新数据库 mongodb 到基于内存的 key-value 数据库 Redis，从 scrapy 爬虫框架到 re 正则表达式模块，尤其正则，以前不会写的时候总是依赖 string 的各种方法，部分时候显得有些繁琐，会正则了之后在字符串的匹配、查找、替换、分隔方面打开了另一扇便捷之窗。另外，将 Redis 引入...

赞同

回答1

关注2

系统集成大数据·2017-08-18

现在比较多的大数据分析中的基础数据，是不是通过爬虫来获取的？

pysx0503 · 第十区。散人　擅长领域：存储, 备份, 服务器

747 会员关注

哦。。。这样一来形成一种矛盾。大数据的发展为企业和我们的生活提供了便利。但是同样也因为这样的非法数据获取而让我们的隐私泄漏

互联网服务网络爬虫·2017-08-17

sanangel592 · 福建　擅长领域：云计算, 容器, 服务器

4 会员关注

这个爬虫和反爬没有绝对的方法。目前一部分WAF（WEB应用防火墙）可以通过一些技术手段实现反爬的功能，比如：1、通过单IP的请求数量判断；2、因为爬虫访问的页面相对固定，所以可以判断某个IP的请求集中度也可以判断；3、在判断某个IP可能为爬虫时，可发出挑战机制(发出一段需要渲染的ja...

赞同1

回答1

关注2

电信运营商网络爬虫·2017-08-16

爬虫共有多少类？每类爬虫带来的危害有哪些？

sprewellkobe · TX　擅长领域：云计算, 安全, 网络

445 会员关注

爬虫首先我们定义它就是获取信息的bot（非人），当然了人也可以起到爬虫的效果，这个就不在这讨论了。既然是bot，那么按照合规性来说，分为：合规的bot，比如正规搜索引擎的bot，内容合作方的bot等等恶意的bot，即未经授权就抓取的bot，按照危害程度可以分为：1，高频爬虫，大量抓取，甚至导致服务不稳...

赞同2

回答1

关注2

软件开发网络爬虫·2017-08-16

目前爬虫的功能已经足够强大，如何才能规避爬虫，减少爬虫带来的危害？