本文共 505 字,大约阅读时间需要 1 分钟。
Web服务器默认接收人类访问,受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销
服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险
网络爬虫可能具备突破简单访问控制的能力,获得被保护数据 从而泄露个人隐私
Robots Exclusion Standard,网络爬虫排除标准作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
形式:在网站根目录下的robots.txt文件实际操作中,该如何遵守Robots协议?
转载地址:http://ygvrn.baihongyu.com/