讲了这么多关于python爬虫,今天带你回顾ython爬虫知识

2024-01-28 06:50

本文主要是介绍讲了这么多关于python爬虫,今天带你回顾ython爬虫知识,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:东风冷雪

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
在这里插入图片描述

最常用的requests库, 通过requests对象的get方法,获取一个response对象。jsp的东西。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中timeout,proxies,headers,cookies,verify,是我用到过的东西。

response对象的方法和属性
text属性,属于字符流,获取文字。
content属性,二进制,获取图片,文件等

hashlib
摘要算法简介
Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等。

什么是摘要算法呢?摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。

举个例子,你写了一篇文章,内容是一个字符串’how to use python hashlib - by Michael’,并附上这篇文章的摘要是’2d73d4f15c0db7f5ecb321b6a65e5d6d’。如果有人篡改了你的文章,并发表为’how to use python hashlib - by Bob’,你可以一下子指出Bob篡改了你的文章,因为根据’how to use python hashlib - by Bob’计算出的摘要不同于原始文章的摘要。

可见,摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest,目的是为了发现原始数据是否被人篡改过。

摘要算法之所以能指出数据是否被篡改过,就是因为摘要函数是一个单向函数,计算f(data)很容易,但通过digest反推data却非常困难。而且,对原始数据做一个bit的修改,都会导致计算出的摘要完全不同。

def get_MD5(st="alice"):md5=hashlib.md5()md5.update(st.encode(encoding="utf-8"))print(md5.hexdigest())get_MD5()

代理和头部处理

def get_html(url):headers = {'Accept': '*/*','Accept-Language': 'en-US,en;q=0.8','Cache-Control': 'max-age=0','User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36','Connection': 'keep-alive','Referer': 'http://www.baidu.com/'}proxy = [{'https': 'http://yx827w:yx827w@123.249.47.2:888'},{'https': 'http://yx827w:yx827w@123.249.47.3:888'},{'https': 'http://yx827w:yx827w@123.249.47.4:888'},{'https': 'http://yx827w:yx827w@123.249.47.5:888'},{'https': 'http://yx827w:yx827w@123.249.47.6:888'},{'https': 'http://yx827w:yx827w@123.249.47.7:888'},{'https': 'http://yx827w:yx827w@123.249.47.8:888'},{'https': 'http://yx827w:yx827w@123.249.47.9:888'},{'https': 'http://yx827w:yx827w@123.249.47.10:888'},{'https': 'http://yx827w:yx827w@123.249.47.11:888'},{'https': 'http://yx827w:yx827w@123.249.47.13:888'},{'https': 'http://yx827w:yx827w@123.249.47.14:888'},{'https': 'http://yx827w:yx827w@123.249.47.15:888'},{'https': 'http://yx827w:yx827w@123.249.47.16:888'},{'https': 'http://yx827w:yx827w@123.249.47.17:888'},{'https': 'http://yx827w:yx827w@123.249.47.18:888'},{'https': 'http://yx827w:yx827w@123.249.47.19:888'},{'https': 'http://yx827w:yx827w@123.249.47.20:888'},{'https': 'http://yx827w:yx827w@123.249.47.21:888'},{'https': 'http://yx827w:yx827w@123.249.47.22:888'},{'https': 'http://yx827w:yx827w@123.249.47.23:888'},{'https': 'http://yx827w:yx827w@123.249.47.24:888'},{'https': 'http://yx827w:yx827w@123.249.47.25:888'},{'https': 'http://yx827w:yx827w@123.249.47.26:888'},{'https': 'http://yx827w:yx827w@123.249.47.27:888'},{'https': 'http://yx827w:yx827w@123.249.47.28:888'},{'https': 'http://yx827w:yx827w@123.249.47.29:888'},{'https': 'http://yx827w:yx827w@123.249.47.30:888'},{'https': 'http://yx827w:yx827w@123.249.47.31:888'},{'https': 'http://yx827w:yx827w@123.249.47.32:888'},{'https': 'http://yx827w:yx827w@123.249.47.33:888'},{'https': 'http://yx827w:yx827w@123.249.47.34:888'},{'https': 'http://yx827w:yx827w@123.249.47.35:888'},{'https': 'http://yx827w:yx827w@123.249.47.36:888'},{'https': 'http://yx827w:yx827w@123.249.47.37:888'},{'https': 'http://yx827w:yx827w@123.249.47.38:888'},{'https': 'http://yx827w:yx827w@123.249.47.39:888'},{'https': 'http://yx827w:yx827w@123.249.47.40:888'},{'https': 'http://yx827w:yx827w@123.249.47.41:888'},]pro=random.choice(proxy)print(type(pro))print(pro)res=requests.get(url,headers=head,proxies=pro)html=res.text //返回字符串。print(html)return html

xpath技术

1.0 使用etree的HTML方法获取数据,返回的是一个节点对象

from lxml import etree
html=get_html("https://blog.csdn.net/u014595019/article/details/51884529")
print(html)
page=etree.HTML(html)
print(type(page),page)
xp='//*[@id="mainBox"]/main/div[1]/div/div/div[2]/div[1]/span[2]'
readnum=page.xpath(xp)for a in readnum:print(a.attrib)print(a.text)print(a.get("class"))

结果如下

<class 'lxml.etree._Element'> <Element html at 0x47a7288>
{'class': 'read-count'}
阅读数:40927
read-count

这篇关于讲了这么多关于python爬虫,今天带你回顾ython爬虫知识的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/652815

相关文章

Python中的filter() 函数的工作原理及应用技巧

《Python中的filter()函数的工作原理及应用技巧》Python的filter()函数用于筛选序列元素,返回迭代器,适合函数式编程,相比列表推导式,内存更优,尤其适用于大数据集,结合lamb... 目录前言一、基本概念基本语法二、使用方式1. 使用 lambda 函数2. 使用普通函数3. 使用 N

Python如何实现高效的文件/目录比较

《Python如何实现高效的文件/目录比较》在系统维护、数据同步或版本控制场景中,我们经常需要比较两个目录的差异,本文将分享一下如何用Python实现高效的文件/目录比较,并灵活处理排除规则,希望对大... 目录案例一:基础目录比较与排除实现案例二:高性能大文件比较案例三:跨平台路径处理案例四:可视化差异报

python之uv使用详解

《python之uv使用详解》文章介绍uv在Ubuntu上用于Python项目管理,涵盖安装、初始化、依赖管理、运行调试及Docker应用,强调CI中使用--locked确保依赖一致性... 目录安装与更新standalonepip 安装创建php以及初始化项目依赖管理uv run直接在命令行运行pytho

Python中yield的用法和实际应用示例

《Python中yield的用法和实际应用示例》在Python中,yield关键字主要用于生成器函数(generatorfunctions)中,其目的是使函数能够像迭代器一样工作,即可以被遍历,但不会... 目录python中yield的用法详解一、引言二、yield的基本用法1、yield与生成器2、yi

深度解析Python yfinance的核心功能和高级用法

《深度解析Pythonyfinance的核心功能和高级用法》yfinance是一个功能强大且易于使用的Python库,用于从YahooFinance获取金融数据,本教程将深入探讨yfinance的核... 目录yfinance 深度解析教程 (python)1. 简介与安装1.1 什么是 yfinance?

Python脚本轻松实现检测麦克风功能

《Python脚本轻松实现检测麦克风功能》在进行音频处理或开发需要使用麦克风的应用程序时,确保麦克风功能正常是非常重要的,本文将介绍一个简单的Python脚本,能够帮助我们检测本地麦克风的功能,需要的... 目录轻松检测麦克风功能脚本介绍一、python环境准备二、代码解析三、使用方法四、知识扩展轻松检测麦

Python多线程应用中的卡死问题优化方案指南

《Python多线程应用中的卡死问题优化方案指南》在利用Python语言开发某查询软件时,遇到了点击搜索按钮后软件卡死的问题,本文将简单分析一下出现的原因以及对应的优化方案,希望对大家有所帮助... 目录问题描述优化方案1. 网络请求优化2. 多线程架构优化3. 全局异常处理4. 配置管理优化优化效果1.

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

Python Flask实现定时任务的不同方法详解

《PythonFlask实现定时任务的不同方法详解》在Flask中实现定时任务,最常用的方法是使用APScheduler库,本文将提供一个完整的解决方案,有需要的小伙伴可以跟随小编一起学习一下... 目录完js整实现方案代码解释1. 依赖安装2. 核心组件3. 任务类型4. 任务管理5. 持久化存储生产环境

Python使用python-pptx自动化操作和生成PPT

《Python使用python-pptx自动化操作和生成PPT》这篇文章主要为大家详细介绍了如何使用python-pptx库实现PPT自动化,并提供实用的代码示例和应用场景,感兴趣的小伙伴可以跟随小编... 目录使用python-pptx操作PPT文档安装python-pptx基础概念创建新的PPT文档查看