【酱浦菌-爬虫项目】四种方法爬取百度首页信息

2024-04-30 17:44

本文主要是介绍【酱浦菌-爬虫项目】四种方法爬取百度首页信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

项目原理:

  1. 首先,定义了四个函数,每个函数都有不同的功能:

    • func1():发送一个GET请求到百度网站,并获取响应内容,演示如何使用`requests`库来获取网页内容。

    • func2():发送一个GET请求到百度网站,并获取响应内容。然后将响应内容保存为名为“baidu.png”的图片文件。

    • func3():使用Splash执行Lua脚本,加载百度网站并等待2秒,然后返回HTML内容。演示如何使用Splash来渲染JavaScript并获取渲染后的网页内容。

    • func4():使用Splash执行Lua脚本,加载百度网站,输入搜索关键词“SXT”,点击搜索按钮,等待2秒,然后返回HTML内容。演示如何使用Splash来模拟用户在网页上的交互操作。

  2. 每个函数的具体步骤如下:

    • 构建请求URL,包含了百度网站的地址。

    • 设置HTTP请求的头部信息,模拟了一个Chrome浏览器的请求。

    • 发送GET请求到指定的URL,获取响应内容。

    • 对于func2func4,将响应内容保存为图片文件。

    • 打印响应内容或其他信息。

  3. 最后,通过调用这四个函数,可以实现不同的操作,例如获取网页内容、下载图片等。

完整代码: 

import requests#三个接口
def func1():url = 'https://www.baidu.com/'base_url = f'http://localhost:8050/render.html?url={url}&wait=1'resp = requests.get(base_url)print(resp.text)def func2():url = 'https://www.baidu.com/'base_url = f'http://localhost:8050/render.html?url={url}&wait=1'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)def func3():url = 'https://www.baidu.com/'lua = f'''function main(splash, args)splash:go(""{url})splash:wait(2)return splash:html()'''base_url = f'http://localhost:8050/execute?lua_source={lua}'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)def func4():url = 'https://www.baidu.com/'lua = f'''function main(splash, args)splash:go("{url}")input = splash:select("#kw")input:send_text("SXT")button = splash:select('#su)button:mouse_click()splash:wait(2)return splash:html()'''base_url = f'http://localhost:8050/execute?lua_source={lua}'resp = requests.get(base_url)with open("img\\" + "baidu" +'.png', 'wb') as f:f.write(resp.content)print(resp.text)if __name__ == '__main__':func1()func2()func3()func4()

这篇关于【酱浦菌-爬虫项目】四种方法爬取百度首页信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/949503

相关文章

Android 12解决push framework.jar无法开机的方法小结

《Android12解决pushframework.jar无法开机的方法小结》:本文主要介绍在Android12中解决pushframework.jar无法开机的方法,包括编译指令、框架层和s... 目录1. android 编译指令1.1 framework层的编译指令1.2 替换framework.ja

SpringBoot中四种AOP实战应用场景及代码实现

《SpringBoot中四种AOP实战应用场景及代码实现》面向切面编程(AOP)是Spring框架的核心功能之一,它通过预编译和运行期动态代理实现程序功能的统一维护,在SpringBoot应用中,AO... 目录引言场景一:日志记录与性能监控业务需求实现方案使用示例扩展:MDC实现请求跟踪场景二:权限控制与

在.NET平台使用C#为PDF添加各种类型的表单域的方法

《在.NET平台使用C#为PDF添加各种类型的表单域的方法》在日常办公系统开发中,涉及PDF处理相关的开发时,生成可填写的PDF表单是一种常见需求,与静态PDF不同,带有**表单域的文档支持用户直接在... 目录引言使用 PdfTextBoxField 添加文本输入域使用 PdfComboBoxField

SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法

《SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法》在SQLyog中执行存储过程时出现的前置缩进问题,实际上反映了SQLyog对SQL语句解析的一个特殊行为,本文给大家介绍了详... 目录问题根源正确写法示例永久解决方案为什么命令行不受影响?最佳实践建议问题根源SQLyog的语句分

Python开发文字版随机事件游戏的项目实例

《Python开发文字版随机事件游戏的项目实例》随机事件游戏是一种通过生成不可预测的事件来增强游戏体验的类型,在这篇博文中,我们将使用Python开发一款文字版随机事件游戏,通过这个项目,读者不仅能够... 目录项目概述2.1 游戏概念2.2 游戏特色2.3 目标玩家群体技术选择与环境准备3.1 开发环境3

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows

判断PyTorch是GPU版还是CPU版的方法小结

《判断PyTorch是GPU版还是CPU版的方法小结》PyTorch作为当前最流行的深度学习框架之一,支持在CPU和GPU(NVIDIACUDA)上运行,所以对于深度学习开发者来说,正确识别PyTor... 目录前言为什么需要区分GPU和CPU版本?性能差异硬件要求如何检查PyTorch版本?方法1:使用命

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Java中的工具类命名方法

《Java中的工具类命名方法》:本文主要介绍Java中的工具类究竟如何命名,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Java中的工具类究竟如何命名?先来几个例子几种命名方式的比较到底如何命名 ?总结Java中的工具类究竟如何命名?先来几个例子JD