使用Beautiful Soup解析网页

本文主要是介绍使用Beautiful Soup解析网页，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

3 使用Beautiful Soup解析网页

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。目前Beautiful Soup 3已经停止开发，大部分的爬虫选择使用Beautiful Soup 4开发。Beautiful Soup不仅支持Python标准库中的HTML解析器，还支持一些第三方的解析器，具体语法如下。

lxml解析器比较常用。

3.1 创建BeautifulSoup对象

要使用Beautiful Soup库解析网页首先需要创建BeautifulSoup对象，将字符串或HTML文件传入。

创建一个BeautifulSoup对象，使用格式如下。

BeautifulSoup("<html>data</html>") #通过字符串创建BeautifulSoup(open("index.html")) #通过HTML文件创建

import requests
from bs4 import BeautifulSoup #pip install beautifulsoup4 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com#requests发送请求
rq = requests.get('http://www.tipdm.com/')
#BeautifulSoup实现网页解析
soup = BeautifulSoup(rq.text, 'lxml') #'lxml'表解析器

3.2 对象类型

3.2.1 Tag对象类型

（1）Tag对象为HTML文档中的标签，形如“<title>The Dormouse's story</title>”或“<p class="title"><b>The Dormouse's story</b></p>”等HTML标签再加上其中包含的内容便是Beautiful Soup中的Tag对象。

（2）通过Tag的名称属性可以很方便的在文档树中获取需要的Tag对象，通过该方法只能获取文档树中第一个同名的Tag对象，而通过多次调用可获取某个Tag对象下的分支Tag对象。通过find_all方法可以获取文档树中的全部同名Tag对象。

soup.head #返回head标签内容
soup.title #返回title标签内容
soup.body.li #返回的是第一个li标签
soup.find_all('li') #可返回所有li标签
type(soup.head) #bs4.element.Tag

（3）Tag有两个非常重要的属性：name和attributes。name属性可通过name方法来获取和修改，修改过后的name属性将会应用至BeautifulSoup对象生成的HTML文档。

a = soup.link
a.name #name属性返回的是标签名称
a.attrs #attrs属性返回的是该标签下面的属性和属性值

3.2.2 NavigableString对象类型

NavigableString对象为包含在Tag中的文本字符串内容，如“<title>The Dormouse‘s story</title>”中的“The Dormouse’s story”，使用string的方法获取，NavigableString对象无法被编辑，但可以使用replace_with的方法进行替换。

soup.title.string #可获取到title标签的文本内容
type(soup.title.string) #bs4.element.NavigableString

#更改标签里的文本内容
a = soup.title.string
a.replace_with('广东泰迪科技股份有限公司') #替换
soup.title.string

3.2.3 BeautifulSoup对象类型

BeautifulSoup对象表示的是一个文档的全部内容。大部分时候，可以把它当作Tag对象。 BeautifulSoup对象并不是真正的HTML或XML的tag，所以并没有tag的name和attribute属性，但其包含了一个值为“[document]”的特殊属性name。

type(soup) #bs4.BeautifulSoup
soup.name #只返回[document]值
soup.attrs #BeautifulSoup对象类型没有attribute属性

3.2.4 Comment对象类型

Tag、NavigableString、BeautifulSoup几乎覆盖了html和xml中的所有内容，但是还有一些特殊对象，文档的注释部分是最容易与Tag中的文本字符串混淆的部分。Beautiful Soup库中将文档的注释部分识别为Comment类型，Comment对象是一个特殊类型的NavigableString对象，但是当其出现在HTML文档中时，Comment对象会使用特殊的格式输出，需调用prettify方法。

markup = '<c><!--This is a markup--></b>'
markup_soup = BeautifulSoup(markup, 'lxml')
markup_soup.c.string
type(markup_soup.c.string) #bs4.element.Comment

3.3 搜索特定节点并获取其中的链接及文本

Beautiful Soup定义了很多搜索方法，其中常用的有find方法和find_all方法，两者的参数一致，区别为find_all方法的返回结果是值包含一个元素的列表，而find直接返回的是结果。find_all方法用于搜索文档树中的Tag非常方便，其语法格式如下。

BeautifulSoup.find_all(name,attrs,recursive,string,**kwargs)

find_all方法的常用参数及其说明如下。

find_all方法

（1）可通过多种参数遍历搜索文档树中符合条件的所有子节点。

（2）可通过name参数搜索同名的全部子节点，并接收多种过滤器。

（3）按照CSS类名可模糊匹配或完全匹配。完全匹配class的值时，如果CSS类名的顺序与实际不符，将搜索不到结果。

（4）若tag的class属性是多值属性，可以分别搜索tag中的每个CSS类名。

（5）通过字符串内容进行搜索符合条件的全部子节点，可通过过滤器操作。

（6）通过传入关键字参数，搜索匹配关键字的子节点。

import requests
from bs4 import BeautifulSoup #pip install beautifulsoup4#requests发送请求
rq = requests.get('http://www.tipdm.com/')
#BeautifulSoup实现网页解析
soup = BeautifulSoup(rq.text, 'lxml') #'lxml'表解析器soup.find_all('title') #返回的是列表
soup.find('title') #直接返回结果#获取标签内容，使用get_text()方法
soup.find_all('title')[0].get_text()
soup.find('title').get_text()soup.find('nav', class_="nav").find('ul', id="menu").find_all('li')[0].find('a').get_text() #class_ 这里加一个下划线是因为避免与python关键字冲突所以用一个下划线.#find、find_all方法+for循环获取导航条全部数据
a = soup.find('nav', class_="nav").find('ul', id="menu").find_all('li')
list1 = []
for i in range(8):b = a[i].find('a').get_text()list1.append(b)

find、find_all方法+for循环获取导航条全部数据思路：先定位包含你想获取的全部数据的标签，像这里就是nav标签。然后再一个标签一个标签找下来，直到找到你想获取的数据。像li标签有多个，且想都获取的话，就用find_all方法，像nav标签此处只出现一个，就可以直接用find方法。

3.4 爬虫练习requests+beautifulsoup

import requests
from bs4 import BeautifulSoupurl = 'http://www.tipdm.com/xwzx/index.jhtml'
#发送请求
rq = requests.get(url)#解析网页
soup = BeautifulSoup(rq.text, 'lxml')a = soup.find('section', id="t505").find_all('div', class_="item clearfix")
#构建空列表用于存放所有的新闻标题
all_title  = []
for i in range(5):title = a[i].find('div', class_="con").find('h1').find('a').get_text() #新闻标题all_title.append(title)#构建空列表用于存放所有的新闻内容
all_content = []
for j in range(5):content = a[i].find('div', class_="con").find('div', class_="des").get_text() #新闻内容all_content.append(content)

这篇关于使用Beautiful Soup解析网页的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！