游戏夜读 | 简单认识一下爬虫

2024-03-19 04:38

本文主要是介绍游戏夜读 | 简单认识一下爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上次提到“爬虫”这个词,已经从单纯的动物指代,变成了“采集网络数据”的新时尚词汇。也提到了网络协议三要素:语法、语义、时序。开始把一个个爬虫程序理解为一个个网络机器人,那么接下来就再简单说一说机器人可能会遇到哪些困难。

首先,键盘、鼠标、眼球捕捉仪等计算机的外接设备,对于爬虫来说都不是问题。同样的,信息的实际载体也不会是大问题。比方说,很多内容是通过浏览器看到的,还有不少好玩的是需要在移动设备上安装App,即应用程序。都不是问题。

其中,凡是通过有线、无线连接的设备,自然就能有工具去解析出数字信息。此外,浏览器、应用程序、软件,一般是以为就运行在某台物理机器上,像是电视、手机、平板电脑之类的。实际上,他们是依附于操作系统的,像是微软、塞班、安卓、苹果、鸿蒙等等。只要是在操作系统内,就有非常多的工具可以使用去进行行为模拟了,比如自动化测试工具。

轻松登陆了信息的实际载体这个阵地后,爬虫的下一步计划就是“挖矿”啦!读取信息,或者有选择的读取所需的信息。

网络信息的表达方式通常都很直接,是“公布天下”式的。不信?大可以在浏览网页时,通过鼠标右键查看源代码,经常会发现网页的文本、加载处理的脚本、字体来源、针对特殊群体的无障碍功能设计等等。爬虫可以随意访问到这些信息。

对于可以随意访问的网站,爬虫可能就真的是排山倒海般随意访问起来了,这对网站的建设工程师们来说可不是什么好事情,所以,在随意访问的基础上,往往又会加以限制,比如:时不时跳出弹窗提醒休息一下啦,验证码,限制访问次数。

也不是所有的信息都是开诚布公的,有些是“申请制”的。最常见的就是需要注册、登录后,才予以访问、下载。

信息发布方式的差别,对爬虫的影响微乎其微。真正能让爬虫抓耳挠腮的,是信息的传递、排版、加密方式。虽然上述的发布方式也可以视为传递的一部分,但这只是人为感受到一部分,计算机网络通信中还可以有更多、更复杂的传递内容,爬虫如果没有把自己伪装彻底,就很可能暴露自己的机器人身份:今天某网站来了一位将被重点关照的可疑的不速之客。

信息的排版也会让爬虫很是头疼。同样的几段文本,可能会在送达上网人的肉眼之前再加一道工序:呈现出一篇文章,而爬虫得到的就是几段文本。这个时候的爬虫就该思考一下人生:到底是为了获取什么样的信息而来,又该带走什么。

最后说一下加密,一般就是编码,而且都是常用的几个,毕竟网络信息是被看、被用、被分享的,不全是网络安全大赛的争夺,所以,大体上并没有什么神奇的地方。如果爬虫倒在了这一步,那大可掉头放弃,不可在犯罪边缘疯狂试探哦!

文/良宵听雨。授权“游戏夜读”发表。

这篇关于游戏夜读 | 简单认识一下爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/824807

相关文章

Python实例题之pygame开发打飞机游戏实例代码

《Python实例题之pygame开发打飞机游戏实例代码》对于python的学习者,能够写出一个飞机大战的程序代码,是不是感觉到非常的开心,:本文主要介绍Python实例题之pygame开发打飞机... 目录题目pygame-aircraft-game使用 Pygame 开发的打飞机游戏脚本代码解释初始化部

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构

C/C++ chrono简单使用场景示例详解

《C/C++chrono简单使用场景示例详解》:本文主要介绍C/C++chrono简单使用场景示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录chrono使用场景举例1 输出格式化字符串chrono使用场景China编程举例1 输出格式化字符串示

windows和Linux安装Jmeter与简单使用方式

《windows和Linux安装Jmeter与简单使用方式》:本文主要介绍windows和Linux安装Jmeter与简单使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录Windows和linux安装Jmeter与简单使用一、下载安装包二、JDK安装1.windows设

Python开发文字版随机事件游戏的项目实例

《Python开发文字版随机事件游戏的项目实例》随机事件游戏是一种通过生成不可预测的事件来增强游戏体验的类型,在这篇博文中,我们将使用Python开发一款文字版随机事件游戏,通过这个项目,读者不仅能够... 目录项目概述2.1 游戏概念2.2 游戏特色2.3 目标玩家群体技术选择与环境准备3.1 开发环境3

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》:本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig(自定义资源权限规则

如何使用Python实现一个简单的window任务管理器

《如何使用Python实现一个简单的window任务管理器》这篇文章主要为大家详细介绍了如何使用Python实现一个简单的window任务管理器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 任务管理器效果图完整代码import tkinter as tkfrom tkinter i

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中,模板是实现泛型编程