Python3网络爬虫教程15——BeautifulSoup4中的编码,格式化,解析器的区别

本文主要是介绍Python3网络爬虫教程15——BeautifulSoup4中的编码,格式化,解析器的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上接:
Python3网络爬虫教程14——BeautifulSoup4之搜索文档树
https://blog.csdn.net/u011318077/article/details/86633433

5.5. 格式化输出

  • prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,

  • 每个XML/HTML标签都独占一行

  • 如下示例
    markup = ‘I linked to example.com
    soup = BeautifulSoup(markup)
    soup.prettify()
    print(soup.prettify())

      # <html>#  <head>#  </head>#  <body>#   <a href="http://example.com/">#    I linked to#    <i>#     example.com#    </i>#   </a>#  </body># </html> 
    

5.6. 解析器的区别

  • 主要的解析器,以及它们的优缺点

    Python标准库 BeautifulSoup(markup, “html.parser”)
    Python的内置标准库
    执行速度适中
    文档容错能力强
    Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差

    lxml HTML 解析器 BeautifulSoup(markup, “lxml”)
    速度快
    文档容错能力强
    需要安装C语言库
    lxml XML 解析器
    BeautifulSoup(markup, [“lxml-xml”])

    BeautifulSoup(markup, “xml”)
    速度快
    唯一支持XML的解析器
    需要安装C语言库

    html5lib BeautifulSoup(markup, “html5lib”)
    最好的容错性
    以浏览器的方式解析文档
    生成HTML5格式的文档
    速度慢
    不依赖外部扩展

5.7. 编码

  • 任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,

  • 但是使用Beautiful Soup解析后,文档都被转换成了Unicode

  • 编码自动检测_ 功能大部分时候都能猜对编码格式,但有时候也会出错.

  • 有时候即使猜测正确,也是在逐个字节的遍历整个文档后才猜对的,这样很慢.

  • 如果预先知道文档编码,可以设置编码参数来减少自动检查编码出错的概率

  • 并且提高文档解析速度

  • 语法
    soup = BeautifulSoup(markup, from_encoding=“iso-8859-8”)

  • 通过Beautiful Soup输出文档时,不管输入文档是什么编码方式,

  • 输出编码均为UTF-8编码

5.8. 补充知识

  • 复制Beautiful Soup对象
  • copy.copy() 方法可以复制任意 Tag 或 NavigableString 对象
    import copy
    p_copy = copy.copy(soup.p)
    print p_copy
    #

    I want pizza and more pizza!

本章案例较多:
源代码请到GITHUB下载:
https://github.com/FangbaiZhang/TLXY_study_note/tree/master/Spider

下接:
Python3网络爬虫教程16——动态HTML(Selenium + Firefox/Chrome的使用)
https://blog.csdn.net/u011318077/article/details/86692354

这篇关于Python3网络爬虫教程15——BeautifulSoup4中的编码,格式化,解析器的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1030738

相关文章

基于C#实现PDF转图片的详细教程

《基于C#实现PDF转图片的详细教程》在数字化办公场景中,PDF文件的可视化处理需求日益增长,本文将围绕Spire.PDFfor.NET这一工具,详解如何通过C#将PDF转换为JPG、PNG等主流图片... 目录引言一、组件部署二、快速入门:PDF 转图片的核心 C# 代码三、分辨率设置 - 清晰度的决定因

Java Scanner类解析与实战教程

《JavaScanner类解析与实战教程》JavaScanner类(java.util包)是文本输入解析工具,支持基本类型和字符串读取,基于Readable接口与正则分隔符实现,适用于控制台、文件输... 目录一、核心设计与工作原理1.底层依赖2.解析机制A.核心逻辑基于分隔符(delimiter)和模式匹

Go之errors.New和fmt.Errorf 的区别小结

《Go之errors.New和fmt.Errorf的区别小结》本文主要介绍了Go之errors.New和fmt.Errorf的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考... 目录error的基本用法1. 获取错误信息2. 在条件判断中使用基本区别1.函数签名2.使用场景详细对

Redis中哨兵机制和集群的区别及说明

《Redis中哨兵机制和集群的区别及说明》Redis哨兵通过主从复制实现高可用,适用于中小规模数据;集群采用分布式分片,支持动态扩展,适合大规模数据,哨兵管理简单但扩展性弱,集群性能更强但架构复杂,根... 目录一、架构设计与节点角色1. 哨兵机制(Sentinel)2. 集群(Cluster)二、数据分片

spring AMQP代码生成rabbitmq的exchange and queue教程

《springAMQP代码生成rabbitmq的exchangeandqueue教程》使用SpringAMQP代码直接创建RabbitMQexchange和queue,并确保绑定关系自动成立,简... 目录spring AMQP代码生成rabbitmq的exchange and 编程queue执行结果总结s

Java 中编码与解码的具体实现方法

《Java中编码与解码的具体实现方法》在Java中,字符编码与解码是处理数据的重要组成部分,正确的编码和解码可以确保字符数据在存储、传输、读取时不会出现乱码,本文将详细介绍Java中字符编码与解码的... 目录Java 中编码与解码的实现详解1. 什么是字符编码与解码?1.1 字符编码(Encoding)1

一文带你迅速搞懂路由器/交换机/光猫三者概念区别

《一文带你迅速搞懂路由器/交换机/光猫三者概念区别》讨论网络设备时,常提及路由器、交换机及光猫等词汇,日常生活、工作中,这些设备至关重要,居家上网、企业内部沟通乃至互联网冲浪皆无法脱离其影响力,本文将... 当谈论网络设备时,我们常常会听到路由器、交换机和光猫这几个名词。它们是构建现代网络基础设施的关键组成

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

redis和redission分布式锁原理及区别说明

《redis和redission分布式锁原理及区别说明》文章对比了synchronized、乐观锁、Redis分布式锁及Redission锁的原理与区别,指出在集群环境下synchronized失效,... 目录Redis和redission分布式锁原理及区别1、有的同伴想到了synchronized关键字

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.