强烈建议你试试无所不能的chatGPT，快点击我

【爬虫】2初学Python网络爬虫

阅读量：3916 次

发布时间：2019-05-23

本文共 505 字，大约阅读时间需要 1 分钟。

【续】初学Python网络爬虫

1、网络爬虫引发的问题

（1）网络爬虫的尺寸

在这里插入图片描述

（2）网络爬虫的“性能骚扰"

Web服务器默认接收人类访问，受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销

（3）网络爬虫的法律风险

服务器上的数据有产权归属，网络爬虫获取数据后牟利将带来法律风险

（4）网络爬虫的隐私泄露

网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私

2、网络爬虫的限制

来源审查：判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问

发布公告：Robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

3、Robotst协议

Robots Exclusion Standard，网络爬虫排除标准作用：网站告知网络爬虫哪些页面可以抓取，哪些不行

形式：在网站根目录下的robots.txt文件

在这里插入图片描述

在这里插入图片描述

4、Robots协议的遵守方式

实际操作中，该如何遵守Robots协议？

网络爬虫：自动或人工识别robots.txt，再进行内容爬取

约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

转载地址：http://ygvrn.baihongyu.com/

你可能感兴趣的文章

单例模式最佳实践

.NET Core + Spring Cloud：服务注册与发现

今天你内卷了吗？

设计模式之代理模式

在 MySQL 中使用码农很忙 IP 地址数据库

结构型设计模式总结

dotNET：怎样处理程序中的异常（实战篇）？

What is 测试金字塔？

api接口返回动态的json格式？我太难了，尝试一下 linq to json

.Net Core HttpClient处理响应压缩

十分钟搭建自己的私有NuGet服务器-BaGet

efcore 新特性 SaveChanges Events

龙芯3A5000初样顺利交付流片

用了Dapper之后通篇还是SqlConnection，真的看不下去了

ABP快速开发一个.NET Core电商平台

[NewLife.Net]单机400万长连接压力测试

使用Azure人脸API对图片进行人脸识别

快醒醒，C# 9 中又来了一堆关键词 init,record,with

【招聘(深圳)】轻岁诚聘.NET Core开发

await,async 我要把它翻个底朝天，这回你总该明白了吧

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-18 10:57:45 当前IP: 3.149.28.5 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我