Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

本文主要是介绍Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

 

**爬取豆瓣电影信息,分析近年电影行业的发展情况**

本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

 

最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。

目录

 

**爬取豆瓣电影信息,分析近年电影行业的发展情况**

一、爬取豆瓣电影

1.1认识XPath

1.2豆瓣电影信息

(1)主页数据探索

(2)详细页探索

1.3代码区

1.4 完整代码

1.5遇到的问题

1.使用User_Agent,仿造浏览器访问 headers

2.伪造Cookie,解封豆瓣IP

3.使用代理IP proxies

二、数据分析和可视化

2.1数据清洗

2.2数据分析,终于到了

2.3  建立回归模型

2.4 完整代码


一、爬取豆瓣电影

1.1认识XPath

先简单介绍下XPath,爬虫的时候会用到,尤其是爬取页面的内容不同时,需要对此进行修改。

lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息。

xpath的节点关系

每个XML的标签我们都称之为节点,其中最顶层的节点称为根节点。

 

xpath中节点的关系

选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

使用chrome插件选择标签时候,选中时,选中的标签会添加属性class=”xh-highlight”

下面列出了最有用的表达式:

实例
在下面的表格中,已列出了一些路径表达式以及表达式的结果:

xpath基础语法练习:
选择所有的h1下的文本

//h1/text()

获取所有的a标签的href

//a/@href

获取html下的head下的title的文本

/html/head/title/text()

获取html下的head下的link标签的href

/html/head/link/@href

 

查找特定的节点

1.2豆瓣电影信息

(1)主页数据探索

接下来开始正式爬取豆瓣电影的数据

https://movie.douban.com/tag/#/?sort=U&range=8,10&tags=%E7%94%B5%E5%BD%B1,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86&page_limit=20&page_start=0

对应关系如下:

1. sort

排序方式,有三种: U:近期热门排序,T:标记最多排序, R:最新上映排序, S:评价最高排序:

2.range=0,10  评分范围

3.tags    影视形式,类型,地区,特色

4.其它,可以不管

playbale=1:表示可播放
unwatched=1:表示还没看过的

 

通过对网址分析https://movie.douban.com/tag/#/?sort=U&range=8,10&tags=%E7%94%B5%E5%BD%B1,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86&page_limit=20&page_start=0

“加载更多”分析

1) 首先要能看网页发回来的JSON数据,步骤如下:

  • 打开chrome的“检查”工具
  • 切换到network界面
  • 选择XHR
  • 在页面上点击“加载更多”后会看到浏览器发出去的请求
  • Preview界面可以看到接受到的JSON数据

 

这里可以发现,每次点击“加载更多”,每次会增加显示20个电影,真实URL中的start这个参数从0-20-40…变化,发送回来最新加载出来的20个电影的JSON数据,了解了这些以后,下面就可以用代码实现抓取了。

  • page_limit=20 决定请求信息的数量
  • page_start=0 决定请求的位置

(2)详细页探索

可以看到,其实主页上已经包含了影片的名称和评分数据,详细的内容还要点击具体的影片,打开如下:

这些都是我们要获取的信息。

通过以上就可以确定超链接位置所在,具体的方法是点击上图红色方框内的“箭头”,之后选择你想获取的信息即可,然后下面就会显示出来。

具体的内容如下,语法见前面内容:

name=html.xpath('//span[@property="v:itemreviewed"]/text()')               #电影名director=html.xpath('//a[@rel="v:directedBy"]//text()')                              #导演actor1=html.xpath('//span[@class="attrs"]/a[@rel="v:starring"]//text()')   #演员
actor = ["/".join(actor1)]                                                                            #有多个内容,合并在一起award1=html.xpath('//*[@id="content"]/div[3]/div[1]/div[8]//li[1]/a//text()') #获奖情况
award = ["/".join(award1)]                                                                         #有多个内容,合并在一起

 

其他数据参考下面的代码:

name=html.xpath('//span[@property="v:itemreviewed"]/text()')#电影名director=html.xpath('//a[@rel="v:directedBy"]//text()')#导演#playwright=html.xpath('//span[@class="pl",contains(text(),"编剧")]//text()')actor1=html.xpath('//span[@class="attrs"]/a[@rel="v:starring"]//text()')#演员actor = ["/".join(actor1)]movie_class1=html.xpath('//span[@property="v:genre"]//text()')#电影分类movie_class = ["/".join(movie_class1)]contry=re.compile('<span class="pl">制片国家/地区:</span>(.*?)<br/>').findall(response.text)#制片国家\地区releasedate=html.xpath('//span[@property="v:initialReleaseDate"]/@content')#上映日期runtime=html.xpath('//span[@property="v:runtime"]/@content')#片长grade=html.xpath('//strong[@class="ll rating_num"]/text()')#电影评分award1=html.xpath('//*[@id="content"]/div[3]/div[1]/div[8]//li[1]/a//text()')#获奖情况award = ["/".join(award1)]comments_user=html.xpath('//span[@property="v:votes"]/text()')#评论人数            duanpingshu1=html.xpath('//*[@id="comments-section"]/div[1]/h2/span/a/text()')#短评数duanpingshu = re.findall("\d+\.?\d*", str(duanpingshu1))    #转化为数字yinhpingshu1=html.xpath('//*[@id="reviews-wrapper"]/header/h2/span/a/text()')#影评数yinhpingshu = re.findall("\d+\.?\d*", str(yinhpingshu1))    #转化为数字

好,那理一下我们的思路

  • 首先,进入豆瓣电影,一共获取n页,每页20个影片。(n取决于你,想获取多少电影)
  • 然后,针对每一页的20个影片,进入其详细内容页面
  • 最后,解析每个影片的详细内容,保存内容到数据库中

代码思路如下:

# 遍历10页
# 保存所有影片数据集
    # 爬取n页的每一页数据 
    # 遍历每一页的20个影片
        # 爬取每个影片的详细内容
        # 保存每个影片信息到数据集中
# 保存结果到数据库中

稍微解释一下:两层循环,第一层是遍历n页网页,因为其中每个网页分别有20个影片,所以,第二层循环又依次遍历20个影片获取详细信息,最后保存结果到数据库中!
 

1.3代码区

由于豆瓣的电影区采用了Ajax技术来渲染页面信息,为方便爬取页面的电影信息,采用了selenium方法来模拟浏览器访问页面并对Ajax渲染操作,不断获取更新的电影信息。把要用的服务准备好。

import requests
from lxml import etree
import pandas as pd
import numpy as np
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
import time
import random
import re

user_agent.txt收集了大量不同的user-agent数据,用来编辑访问请求的请求头信息,模仿后期的浏览器浏览。user_agents1.txt在附件中

with open('user_agents1.txt', 'r') as f:U=[]for line in f:U.append(f.readline())

通过selenium作n次Ajax渲染后,爬取页面源代码中电影的图片、url,并关闭浏览器。先爬取高分电影(8分-10分)。

url='https://movie.douban.com/tag/#/?sort=U&range=8,10&tags=%E7%94%B5%E5%BD%B1,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86&page_limit=20&page_start=0'
#豆瓣华语电影区,根据热门标签选电影的url
broser=webdriver.C

这篇关于Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1150133

相关文章

SpringBoot3中使用虚拟线程的完整步骤

《SpringBoot3中使用虚拟线程的完整步骤》在SpringBoot3中使用Java21+的虚拟线程(VirtualThreads)可以显著提升I/O密集型应用的并发能力,这篇文章为大家介绍了详细... 目录1. 环境准备2. 配置虚拟线程方式一:全局启用虚拟线程(Tomcat/Jetty)方式二:异步

Python远程控制MySQL的完整指南

《Python远程控制MySQL的完整指南》MySQL是最流行的关系型数据库之一,Python通过多种方式可以与MySQL进行交互,下面小编就为大家详细介绍一下Python操作MySQL的常用方法和最... 目录1. 准备工作2. 连接mysql数据库使用mysql-connector使用PyMySQL3.

使用Python实现base64字符串与图片互转的详细步骤

《使用Python实现base64字符串与图片互转的详细步骤》要将一个Base64编码的字符串转换为图片文件并保存下来,可以使用Python的base64模块来实现,这一过程包括解码Base64字符串... 目录1. 图片编码为 Base64 字符串2. Base64 字符串解码为图片文件3. 示例使用注意

Linux中修改Apache HTTP Server(httpd)默认端口的完整指南

《Linux中修改ApacheHTTPServer(httpd)默认端口的完整指南》ApacheHTTPServer(简称httpd)是Linux系统中最常用的Web服务器之一,本文将详细介绍如何... 目录一、修改 httpd 默认端口的步骤1. 查找 httpd 配置文件路径2. 编辑配置文件3. 保存

使用Python实现获取屏幕像素颜色值

《使用Python实现获取屏幕像素颜色值》这篇文章主要为大家详细介绍了如何使用Python实现获取屏幕像素颜色值,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、一个小工具,按住F10键,颜色值会跟着显示。完整代码import tkinter as tkimport pyau

python编写朋克风格的天气查询程序

《python编写朋克风格的天气查询程序》这篇文章主要为大家详细介绍了一个基于Python的桌面应用程序,使用了tkinter库来创建图形用户界面并通过requests库调用Open-MeteoAPI... 目录工具介绍工具使用说明python脚本内容如何运行脚本工具介绍这个天气查询工具是一个基于 Pyt

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结

Spring Boot 整合 Apache Flink 的详细过程

《SpringBoot整合ApacheFlink的详细过程》ApacheFlink是一个高性能的分布式流处理框架,而SpringBoot提供了快速构建企业级应用的能力,下面给大家介绍Spri... 目录Spring Boot 整合 Apache Flink 教程一、背景与目标二、环境准备三、创建项目 & 添

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2