博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【爬虫】2初学Python网络爬虫
阅读量:3916 次
发布时间:2019-05-23

本文共 505 字,大约阅读时间需要 1 分钟。

【续】初学Python网络爬虫

1、网络爬虫引发的问题

(1)网络爬虫的尺寸

在这里插入图片描述

(2)网络爬虫的“性能骚扰"

Web服务器默认接收人类访问,受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销

(3)网络爬虫的法律风险

服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险

(4)网络爬虫的隐私泄露

网络爬虫可能具备突破简单访问控制的能力,获得被保护数据 从而泄露个人隐私

2、网络爬虫的限制

  • 来源审查:判断User‐Agent进行限制
    检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
  • 发布公告:Robots协议
    告知所有爬虫网站的爬取策略,要求爬虫遵守

3、Robotst协议

Robots Exclusion Standard,网络爬虫排除标准作用:网站告知网络爬虫哪些页面可以抓取,哪些不行

形式:在网站根目录下的robots.txt文件
在这里插入图片描述在这里插入图片描述

4、Robots协议的遵守方式

实际操作中,该如何遵守Robots协议?

  • 网络爬虫:自动或人工识别robots.txt,再进行内容爬取
  • 约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险
    在这里插入图片描述

转载地址:http://ygvrn.baihongyu.com/

你可能感兴趣的文章
单例模式最佳实践
查看>>
.NET Core + Spring Cloud:服务注册与发现
查看>>
今天你内卷了吗?
查看>>
设计模式之代理模式
查看>>
在 MySQL 中使用码农很忙 IP 地址数据库
查看>>
结构型设计模式总结
查看>>
dotNET:怎样处理程序中的异常(实战篇)?
查看>>
What is 测试金字塔?
查看>>
api接口返回动态的json格式?我太难了,尝试一下 linq to json
查看>>
.Net Core HttpClient处理响应压缩
查看>>
十分钟搭建自己的私有NuGet服务器-BaGet
查看>>
efcore 新特性 SaveChanges Events
查看>>
龙芯3A5000初样顺利交付流片
查看>>
用了Dapper之后通篇还是SqlConnection,真的看不下去了
查看>>
ABP快速开发一个.NET Core电商平台
查看>>
[NewLife.Net]单机400万长连接压力测试
查看>>
使用Azure人脸API对图片进行人脸识别
查看>>
快醒醒,C# 9 中又来了一堆关键词 init,record,with
查看>>
【招聘(深圳)】轻岁 诚聘.NET Core开发
查看>>
await,async 我要把它翻个底朝天,这回你总该明白了吧
查看>>