Python从0到100(三十二):lxml模块的学习与应用

2024-06-11 14:36

本文主要是介绍Python从0到100(三十二):lxml模块的学习与应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

学习目标

  • 掌握使用lxml库提取数据的方法。
  • 理解lxml在数据处理后提取的数据类型。
  • 学习将元素(element)转换为字符串的方法。

1. lxml的安装

通过以下命令安装lxml库:

pip install lxml

2. lxml的使用

2.1 基础使用
  • 导入lxml的etree库:
    from lxml import etree
    
  • 将字符串转换为Element对象,并使用xpath方法提取数据:
    html = etree.HTML(text)
    ret_list = html.xpath("xpath字符串")
    
  • 将Element对象转换为字符串(bytes类型):
    etree.tostring(element)
示例

假设有以下HTML内容,我们将对其进行操作:

<div> <ul> <li class="item-1"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> <!-- 注意此处缺少闭合标签 --></ul> </div> 

使用lxml进行操作的代码如下:

from lxml import etreetext = """ 
<div> <ul> ... </ul> </div> """html = etree.HTML(text)
print(type(html))handeled_html_str = etree.tostring(html).decode()
print(handeled_html_str)

输出结果:

<class 'lxml.etree._Element'>
<html><body><div> ... </div> </body></html>

注意:lxml能够补充缺失的标签,但在数据提取时可能遇到问题。使用etree.tostring方法可以观察lxml处理后的HTML结构。

2.2 进阶练习

假设每个class为item-1li标签代表一条新闻数据,我们将这些数据组成字典。

from lxml import etreetext = """ 
<div> <ul> ... </ul> </div> """html = etree.HTML(text)# 获取所有`li`标签的`href`和标题
href_list = html.xpath("//li[@class='item-1']/a/@href")
title_list = html.xpath("//li[@class='item-1']/a/text()")# 组装新闻数据
for href in href_list:item = {"href": href, "title": title_list[href_list.index(href)]}print(item)

输出结果:

{'href': 'link1.html', 'title': 'first item'}
{'href': 'link2.html', 'title': 'second item'}
{'href': 'link4.html', 'title': 'fourth item'}
2.3 进阶使用

如果提取的是一个节点而非属性或文本,lxml会返回Element对象,可以继续使用xpath方法。

from lxml import etreetext = """ 
<div> <ul> ... </ul> </div> """html = etree.HTML(text)
li_list = html.xpath("//li[@class='item-1']")for li in li_list:item = {"href": li.xpath("./a/@href")[0] if li.xpath("./a/@href") else None,"title": li.xpath("./a/text()")[0] if li.xpath("./a/text()") else None}print(item)

输出结果:

{'href': None, 'title': 'first item'}
{'href': 'link2.html', 'title': 'second item'}
{'href': 'link4.html', 'title': 'fourth item'}

小结

  • 安装lxml库:pip install lxml
  • 导入lxml库:from lxml import etree
  • 使用lxml转换和解析HTML:etree.HTML(text)
  • 使用xpath提取数据:data.xpath("//div/text()")
  • 注意lxml提取的数据都是列表类型
  • 对于复杂数据,先提取大节点,再遍历小节点进行操作,即先分组再提取数据

通过上述学习,你应该能够使用lxml库进行基本的数据提取和处理。在实际应用中,你可能需要根据具体情况调整xpath表达式以适应不同的数据结构。

好书推荐

在这里插入图片描述
《人工智能注意力机制:体系、模型与算法剖析》融合了资深开发工程师多年一线工作经验,从注意力机制这一重要角度入手,阐述注意力机制的产生背景和发展历程,通过详实的理论剖析,以深入浅出的方式着重介绍注意力机制在计算机视觉与自然语言处理两大人工智能方向中的体系、模型与算法,并在最后将注意力机制在其他智能领域的应用加以拓展。内容循序渐进,图文细腻讲解,使读者身临其境,迅速、深入地掌握各种经验和技巧。
内容简介
“注意”作为一切思维活动的起点,一直是哲学、心理学和认知神经科学的重点研究对象。随着计算机技术的发展,人类对注意力机制的模拟和应用成为计算机科学领域的热点研究方向——让计算机能够具有类似人类的注意力机制,使其能够有效地应用于对数据的理解和分析。Transformer模型诞生后,注意力机制在人工智能各大重要领域的研究和应用更是如火如荼,成果丰硕。
《人工智能注意力机制:体系、模型与算法剖析》从注意力机制这一重要角度入手,阐述注意力机制的产生背景和发展历程,通过详实的理论剖析,以深入浅出的方式着重介绍注意力机制在计算机视觉、自然语言处理,以及多模态机器学习三大人工智能方向中的应用思路、模型与算法。
《人工智能注意力机制:体系、模型与算法剖析》以人工智能相关专业研究人员,特别是计算机视觉与自然语言处理等领域的研发人员作为主要读者对象,一方面帮其梳理技术的发展脉络、开拓思路、构建完整的认知体系;另一方面为其剖析算法原理、深刻理解算法细节。本书提供配套源代码,下载方式见封底。

购买链接:https://item.jd.com/14544040.html
在这里插入图片描述

这篇关于Python从0到100(三十二):lxml模块的学习与应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1051448

相关文章

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

Python打包成exe常用的四种方法小结

《Python打包成exe常用的四种方法小结》本文主要介绍了Python打包成exe常用的四种方法,包括PyInstaller、cx_Freeze、Py2exe、Nuitka,文中通过示例代码介绍的非... 目录一.PyInstaller11.安装:2. PyInstaller常用参数下面是pyinstal

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

Python中isinstance()函数原理解释及详细用法示例

《Python中isinstance()函数原理解释及详细用法示例》isinstance()是Python内置的一个非常有用的函数,用于检查一个对象是否属于指定的类型或类型元组中的某一个类型,它是Py... 目录python中isinstance()函数原理解释及详细用法指南一、isinstance()函数