基础篇3 浅试Python爬虫爬取视频,m3u8标准的切片视频

2024-04-03 17:04

本文主要是介绍基础篇3 浅试Python爬虫爬取视频,m3u8标准的切片视频,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

浅试Python爬取视频

1.页面分析

  • 使用虾米视频在线解析
  • 使用方式:https://jx.xmflv.cc/?url=目标网站视频链接
  • 例如某艺的视频 原视频链接

解析结果:
在这里插入图片描述

1.1 F12查看页面结构

在这里插入图片描述
我们发现页面内容中什么都没有,video标签中的src路径也不是视频的数据。

1.2 老规矩看网络请求中的过滤的XHR

发现一堆没卵用的数据返回,直到我们看到这个mixed.m3u3结尾的返回结果,及后续高度相似的请求数据
在这里插入图片描述

1.3解析mp2t媒体文件

将上一步中的mp2t媒体文件随机挑选一个下载下来。打开后就是我们的目标视频。ok目的达到。
在这里插入图片描述接下来我们要做的就是将返回的mixed.m3u8解析出来

2.功能实现

2.1 拿到m3u8的文件

#-*- coding:UTF-8 -*-import requests
import os
import sysres = requests.get('https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/mixed.m3u8')
m3u8_obj = res.text
print(m3u8_obj)

可以看到打印结果
在这里插入图片描述
到这里我们就需要拿到ts结尾的字符串,然后筛选出以ts结尾的字符串。

2.2 解析m3u8的信息

m3u8 = m3u8_obj.split('\n')
# 匹配*.ts结尾的字符串
rst = [s for s in m3u8 if s.endswith('.ts')]
print(rst)

我们可以看到打印结果
在这里插入图片描述

接下来就需要拼接字符串获取到视频的路径,下载下来之后再进行拼接。

2.3 下载视频

baseurl= 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/'
# 下载并保存TS分片
for i, url in enumerate(rst):response = requests.get(baseurl+url, stream=True)with open(f'segment{i + 1}.ts', 'wb') as out_file:out_file.write(response.content)

于是我们可以看到
在这里插入图片描述
现在切片视频正确拿到了

  • 可以利用第三方软件进行视频合并
  • 可以先创建一个.MP4格式的文件使用python写入文件的方法进行合并

2.4 合并

# 将下载的视频合并起来
# 拿到文件名
file_names = os.listdir('./video')
# 最终视频路径
target_video = open('./output.mp4','ab')
# 遍历全部视频集合
for file in file_names:with open('./video/'+file,"rb") as f:target_video.write(f.read())f.close()
target_video.close()

我只是下载的部分视频,成功合成看结果:

在这里插入图片描述

3.整合一下

# -*- coding:utf-8 -*-import requests
import os
import sysclass getvideo(object):def __init__(self) -> None:self.baseurl = 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/'  # ts视频的路径self.m3u8url = 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/mixed.m3u8' # m3u8文件的路径self.ts_video = [] # 存放解析后的ts视频信息def geturlbyts(self):res = requests.get(self.m3u8url)m3u8_obj = res.text m3u8 = m3u8_obj.split('\n')  # 按照换行分割# 匹配*.ts结尾的字符串self.ts_video = [s for s in m3u8 if s.endswith('.ts')]# 下载并保存TS分片def downloadvideobyts(self):for i, url in enumerate(self.ts_video):response = requests.get(self.baseurl+url, stream=True)with open(f'.\\video\\'+self.ts_video[i], 'wb') as out_file:sys.stdout.write("下载进度:{0:.2f}%" .format(float((i+1)/len(self.ts_video))*100)  + '\r')sys.stdout.flush()out_file.write(response.content)def mergevideo(self):# 将下载的视频合并起来# 拿到文件名file_names = os.listdir('./video')# 最终视频路径target_video = open('./output.mp4','ab')# 遍历全部视频集合for file in file_names:with open('./video/'+file,"rb") as f:print("当前合并到{}".format(file))target_video.write(f.read())f.close()target_video.close()dlvideo = getvideo()
dlvideo.geturlbyts()
# 当前目录创建一个video文件夹 用来存储ts分片视频
# 创建个文件夹存储视频
os.makedirs('video',exist_ok=True)
dlvideo.downloadvideobyts()
dlvideo.mergevideo()
print("合并完成")

单线程着实慢,后续继续更新学习。
在这里插入图片描述
以上仅供学习使用,下载后请于24小时内删除。

这篇关于基础篇3 浅试Python爬虫爬取视频,m3u8标准的切片视频的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/873484

相关文章

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

Python标准库之数据压缩和存档的应用详解

《Python标准库之数据压缩和存档的应用详解》在数据处理与存储领域,压缩和存档是提升效率的关键技术,Python标准库提供了一套完整的工具链,下面小编就来和大家简单介绍一下吧... 目录一、核心模块架构与设计哲学二、关键模块深度解析1.tarfile:专业级归档工具2.zipfile:跨平台归档首选3.

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

Python操作PDF文档的主流库使用指南

《Python操作PDF文档的主流库使用指南》PDF因其跨平台、格式固定的特性成为文档交换的标准,然而,由于其复杂的内部结构,程序化操作PDF一直是个挑战,本文主要为大家整理了Python操作PD... 目录一、 基础操作1.PyPDF2 (及其继任者 pypdf)2.PyMuPDF / fitz3.Fre

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

python中列表应用和扩展性实用详解

《python中列表应用和扩展性实用详解》文章介绍了Python列表的核心特性:有序数据集合,用[]定义,元素类型可不同,支持迭代、循环、切片,可执行增删改查、排序、推导式及嵌套操作,是常用的数据处理... 目录1、列表定义2、格式3、列表是可迭代对象4、列表的常见操作总结1、列表定义是处理一组有序项目的

python运用requests模拟浏览器发送请求过程

《python运用requests模拟浏览器发送请求过程》模拟浏览器请求可选用requests处理静态内容,selenium应对动态页面,playwright支持高级自动化,设置代理和超时参数,根据需... 目录使用requests库模拟浏览器请求使用selenium自动化浏览器操作使用playwright

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

Python极速搭建局域网文件共享服务器完整指南

《Python极速搭建局域网文件共享服务器完整指南》在办公室或家庭局域网中快速共享文件时,许多人会选择第三方工具或云存储服务,但这些方案往往存在隐私泄露风险或需要复杂配置,下面我们就来看看如何使用Py... 目录一、android基础版:HTTP文件共享的魔法命令1. 一行代码启动HTTP服务器2. 关键参