入门爬虫示例-爬取豆瓣短评

2023-12-12 20:18

本文主要是介绍入门爬虫示例-爬取豆瓣短评,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

群里有个小妹妹,让我帮她写的代码,好像是作业什么的。花了几分钟看了一下,随便写写,分享给有需要的童鞋,我用python 3 写的,实现的功能就是:爬取豆瓣短评,然后将数据写入本地的excel表格,数据大概有,电影名称,评分,评论人数,短评四项,稍微修改下也可以爬取其他数据。

这属于入门学习的爬虫,博客里的代码,复制到本地,直接就能跑,有些包需要自己安装一下,安装教程自行百度。代码如下:

#-*- coding:UTF-8 -*-
#2018/12/24
#made in baiye
#爬取豆瓣短评,然后将数据写入本地的excel表格,数据大概有,电影名称,评分,评论人数,短评四项。import requests
from bs4 import BeautifulSoup
import re
import time
import xlrd
import xlwt
from xlutils.copy import copy#获取页面源码
def getHTMLText(url,k):try:if(k==0):kw={}else: kw={'start':k,'filter':''}r = requests.get(url,params=kw,headers={'User-Agent': 'Mozilla/4.0'})r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:print("Failed!")#通过BeautifulSoup查找所需要的数据
def getData(html,n,files):soup = BeautifulSoup(html, "html.parser")movieList=soup.find('ol',attrs={'class':'grid_view'})#找到第一个class属性值为grid_view的ol标签for movieLi in movieList.find_all('li'):#找到所有li标签n += 1data = []#声明一个list,将得到的数据添加进list#得到电影名字movieHd=movieLi.find('div',attrs={'class':'hd'})#找到第一个class属性值为hd的div标签movieName=movieHd.find('span',attrs={'class':'title'}).getText()#找到第一个class属性值为title的span标签#也可使用.string方法data.append(movieName)#得到电影的评分movieScore=movieLi.find('span',attrs={'class':'rating_num'}).getText()data.append(movieScore)#得到电影的评价人数movieEval=movieLi.find('div',attrs={'class':'star'})movieEvalNum=re.findall(r'\d+',str(movieEval))[-1]data.append(movieEvalNum)# 得到电影的短评movieQuote = movieLi.find('span', attrs={'class': 'inq'})if(movieQuote):data.append(movieQuote.getText())else:data.append("无")#将数据循环写入excel文件c = 0for r in data:rexcel = xlrd.open_workbook(files)  # 用wlrd提供的方法读取一个excel文件excel = copy(rexcel)  # 用xlutils提供的copy方法将xlrd的对象转化为xlwt的对象table = excel.get_sheet(0)  # 用xlwt对象的方法获得要操作的sheetif len(r) > 32767:continuetable.write(n, c, r)  # xlwt对象的写方法,参数分别是行、列、值c += 1excel.save(files)
if __name__ == '__main__':k=0n = 0files = 'top100.xls'#保存的位置,默认是当前执行目录下。workbook = xlwt.Workbook()sheet = workbook.add_sheet("sheet1")sheet.write(0,0,"电影名称")sheet.write(0,1,"评分")sheet.write(0,2,"评论人数")sheet.write(0,3,"短评")workbook.save(files)#当前目录下创建test.xls文件basicUrl='https://movie.douban.com/top250'while k<=75:html=getHTMLText(basicUrl,k)time.sleep(2)k+=25#每页25条,循环一次加25getData(html,n,files)n += 25#用于控制excel表的行数

爬取部分结果展示:

有问题可以随时提出,欢迎加群交流。

 

这篇关于入门爬虫示例-爬取豆瓣短评的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/485809

相关文章

MySQL中between and的基本用法、范围查询示例详解

《MySQL中betweenand的基本用法、范围查询示例详解》BETWEENAND操作符在MySQL中用于选择在两个值之间的数据,包括边界值,它支持数值和日期类型,示例展示了如何使用BETWEEN... 目录一、between and语法二、使用示例2.1、betwphpeen and数值查询2.2、be

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添

Java数组动态扩容的实现示例

《Java数组动态扩容的实现示例》本文主要介绍了Java数组动态扩容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1 问题2 方法3 结语1 问题实现动态的给数组添加元素效果,实现对数组扩容,原始数组使用静态分配

JAVA项目swing转javafx语法规则以及示例代码

《JAVA项目swing转javafx语法规则以及示例代码》:本文主要介绍JAVA项目swing转javafx语法规则以及示例代码的相关资料,文中详细讲解了主类继承、窗口创建、布局管理、控件替换、... 目录最常用的“一行换一行”速查表(直接全局替换)实际转换示例(JFramejs → JavaFX)迁移建

MyBatis中的两种参数传递类型详解(示例代码)

《MyBatis中的两种参数传递类型详解(示例代码)》文章介绍了MyBatis中传递多个参数的两种方式,使用Map和使用@Param注解或封装POJO,Map方式适用于动态、不固定的参数,但可读性和安... 目录✅ android方式一:使用Map<String, Object>✅ 方式二:使用@Param

SpringBoot实现图形验证码的示例代码

《SpringBoot实现图形验证码的示例代码》验证码的实现方式有很多,可以由前端实现,也可以由后端进行实现,也有很多的插件和工具包可以使用,在这里,我们使用Hutool提供的小工具实现,本文介绍Sp... 目录项目创建前端代码实现约定前后端交互接口需求分析接口定义Hutool工具实现服务器端代码引入依赖获

C#中DateTime的格式符的实现示例

《C#中DateTime的格式符的实现示例》本文介绍了C#中DateTime格式符的使用方法,分为预定义格式和自定义格式两类,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值... 目录DateTime的格式符1.核心概念2.预定义格式(快捷方案,直接复用)3.自定义格式(灵活可控

MyBatisPlus乐观锁和悲观锁的实现示例

《MyBatisPlus乐观锁和悲观锁的实现示例》本文主要介绍了MyBatisPlus乐观锁和悲观锁,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录1.场景2.乐观锁和悲观锁3.乐观锁实现4.悲观锁1.场景一件商品,成本价是80元,售价是10

Java中@Accessors使用的实现示例

《Java中@Accessors使用的实现示例》本文主要介绍了Java中@Accessors使用的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录一、@Accessors(chain = true)二、@Accessors(fluent =

SpringCloud Stream 快速入门实例教程

《SpringCloudStream快速入门实例教程》本文介绍了SpringCloudStream(SCS)组件在分布式系统中的作用,以及如何集成到SpringBoot项目中,通过SCS,可... 目录1.SCS 组件的出现的背景和作用2.SCS 集成srping Boot项目3.Yml 配置4.Sprin