Python爬虫爬取香港电影评分网站各榜单

2023-10-30 08:30

本文主要是介绍Python爬虫爬取香港电影评分网站各榜单,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python爬虫

香港电影评分网站

在这里插入图片描述
各大榜单

在这里插入图片描述
最新电影榜单

在这里插入图片描述

步骤

1、找到所有的榜单地址

base_url = "https://hkmovie6.com"
edit_url = "https://hkmovie6.com/collection" # 编辑精选
marvel_url = "https://hkmovie6.com/collection/0bb46a15-ceaf-4cf0-a9ed-14284b32c5c1" # 漫威宇宙
dc_url = "https://hkmovie6.com/collection/c3400e0e-78ac-4184-ac4f-972f46dd3b07" # dc宇宙
star_wars_url = "https://hkmovie6.com/collection/3eabc7b5-c674-42a3-8069-522a02bf8f1a" # 星球大战系列
oscars_url = "https://hkmovie6.com/collection/ba07fa64-8297-49d7-ba4c-fb9bed210a65" # 奥斯卡金像奖得奖名单
new_url = "https://hkmovie6.com/watch/latest" # 最新

2、分析排行榜获取电影详情页地址

在这里插入图片描述

3、根据详情页获取电影信息

在这里插入图片描述
4、将爬取到的数据保存到Excel文件

在这里插入图片描述

代码

# -*- coding: utf-8 -*- import requests
from bs4 import BeautifulSoup
import xlwt'''
https://hkmovie6.com
'''
base_url = "https://hkmovie6.com"
edit_url = "https://hkmovie6.com/collection" # 编辑精选
marvel_url = "https://hkmovie6.com/collection/0bb46a15-ceaf-4cf0-a9ed-14284b32c5c1" # 漫威宇宙
dc_url = "https://hkmovie6.com/collection/c3400e0e-78ac-4184-ac4f-972f46dd3b07" # dc宇宙
star_wars_url = "https://hkmovie6.com/collection/3eabc7b5-c674-42a3-8069-522a02bf8f1a" # 星球大战系列
oscars_url = "https://hkmovie6.com/collection/ba07fa64-8297-49d7-ba4c-fb9bed210a65" # 奥斯卡金像奖得奖名单
new_url = "https://hkmovie6.com/watch/latest" # 最新def get_html(url,encoding):response = requests.get(url)if response.status_code == 200:# 判断请求是否成功response.encoding = encodingreturn response.textelse:return Nonedef get_new_data(savepath):'''获取最新模块数据:return:'''html = get_html(new_url, "utf-8")soup = BeautifulSoup(html,"html.parser")shows = soup.find("div",class_="shows")a_links = shows.find_all("a")datalist = []for a in a_links:mv_url = a['href']print(mv_url)result = get_detail_data(base_url + mv_url)datalist.append(result)save_to_excel(savepath,datalist)def get_marvel_data():'''获取漫威电影系列榜单:return:'''html = get_html(marvel_url,"utf-8")get_new_data(html,"./漫威.xls")def get_dc_data():'''获取dc电影系列榜单:return:'''html = get_html(dc_url,"utf-8")get_new_data(html,"./dc.xls")def get_sw_data():'''获取星球大战电影系列榜单:return:'''html = get_html(star_wars_url,"utf-8")get_new_data(html,"./星球大战.xls")def get_oscars_data():'''获取星球大战电影系列榜单:return:'''html = get_html(oscars_url, "utf-8")get_new_data(html, "./奥斯卡金像奖榜单.xls")def save_to_excel(savepath,datalist):book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建workbook对象sheet = book.add_sheet('Top100', cell_overwrite_ok=True)  # 创建工作表col = ("电影名", "时长", "上映日期", "级别","简介")for i in range(0,5):sheet.write(0, i, col[i])  # 列名for i in range(0, len(datalist)):print("第{}条".format(i + 1))data = datalist[i]if len(data) >= 5:# 数据完整才保存for j in range(0, 5):sheet.write(i + 1, j, data[j])book.save(savepath)  # 保存def get_detail_data(url):''':return:'''print(url)html = get_html(url,"utf-8")soup = BeautifulSoup(html, "html.parser")mv_content = soup.find("div",class_="movieContent")mv_detail = mv_content.find("div",class_="movieMobileDetail")mv_title = mv_detail.find("div",class_="movieName").get_text().strip()mv_tad = mv_detail.find("div",class_="text").get_text().strip().split("|")mv_duration = mv_tad[1].strip()mv_time = mv_tad[0].strip()mv_level = mv_detail.find("div",class_="cat").get_text().strip()mv_des = mv_content.find("div",class_="synopsis").span.span['aria-label'].strip()# 标题 2021年2月24日 | 103 分鐘 简介  级别return [mv_title,mv_duration,mv_time,mv_level,mv_des]def main():get_marvel_data()get_dc_data()get_sw_data()get_oscars_data()if __name__ == '__main__':main()

这篇关于Python爬虫爬取香港电影评分网站各榜单的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/306679

相关文章

python web 开发之Flask中间件与请求处理钩子的最佳实践

《pythonweb开发之Flask中间件与请求处理钩子的最佳实践》Flask作为轻量级Web框架,提供了灵活的请求处理机制,中间件和请求钩子允许开发者在请求处理的不同阶段插入自定义逻辑,实现诸如... 目录Flask中间件与请求处理钩子完全指南1. 引言2. 请求处理生命周期概述3. 请求钩子详解3.1

使用Python实现网页表格转换为markdown

《使用Python实现网页表格转换为markdown》在日常工作中,我们经常需要从网页上复制表格数据,并将其转换成Markdown格式,本文将使用Python编写一个网页表格转Markdown工具,需... 在日常工作中,我们经常需要从网页上复制表格数据,并将其转换成Markdown格式,以便在文档、邮件或

Python使用pynput模拟实现键盘自动输入工具

《Python使用pynput模拟实现键盘自动输入工具》在日常办公和软件开发中,我们经常需要处理大量重复的文本输入工作,所以本文就来和大家介绍一款使用Python的PyQt5库结合pynput键盘控制... 目录概述:当自动化遇上可视化功能全景图核心功能矩阵技术栈深度效果展示使用教程四步操作指南核心代码解析

Python实现pdf电子发票信息提取到excel表格

《Python实现pdf电子发票信息提取到excel表格》这篇文章主要为大家详细介绍了如何使用Python实现pdf电子发票信息提取并保存到excel表格,文中的示例代码讲解详细,感兴趣的小伙伴可以跟... 目录应用场景详细代码步骤总结优化应用场景电子发票信息提取系统主要应用于以下场景:企业财务部门:需

基于Python实现智能天气提醒助手

《基于Python实现智能天气提醒助手》这篇文章主要来和大家分享一个实用的Python天气提醒助手开发方案,这个工具可以方便地集成到青龙面板或其他调度框架中使用,有需要的小伙伴可以参考一下... 目录项目概述核心功能技术实现1. 天气API集成2. AI建议生成3. 消息推送环境配置使用方法完整代码项目特点

使用Python获取JS加载的数据的多种实现方法

《使用Python获取JS加载的数据的多种实现方法》在当今的互联网时代,网页数据的动态加载已经成为一种常见的技术手段,许多现代网站通过JavaScript(JS)动态加载内容,这使得传统的静态网页爬取... 目录引言一、动态 网页与js加载数据的原理二、python爬取JS加载数据的方法(一)分析网络请求1

Python中合并列表(list)的六种方法小结

《Python中合并列表(list)的六种方法小结》本文主要介绍了Python中合并列表(list)的六种方法小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋... 目录一、直接用 + 合并列表二、用 extend() js方法三、用 zip() 函数交叉合并四、用

如何基于Python开发一个微信自动化工具

《如何基于Python开发一个微信自动化工具》在当今数字化办公场景中,自动化工具已成为提升工作效率的利器,本文将深入剖析一个基于Python的微信自动化工具开发全过程,有需要的小伙伴可以了解下... 目录概述功能全景1. 核心功能模块2. 特色功能效果展示1. 主界面概览2. 定时任务配置3. 操作日志演示

python多线程并发测试过程

《python多线程并发测试过程》:本文主要介绍python多线程并发测试过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、并发与并行?二、同步与异步的概念?三、线程与进程的区别?需求1:多线程执行不同任务需求2:多线程执行相同任务总结一、并发与并行?1、

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、