❤️爬虫截热榜长屏不方便阅读!推荐dominate直接生成报告❤️

本文主要是介绍❤️爬虫截热榜长屏不方便阅读!推荐dominate直接生成报告❤️,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之前学委之前写了一篇热榜长榜单爬虫截屏的文章和 快速优雅HTML报表开发

这次玩大一点,我们把热榜直接爬下来存为报告查看。

先看看效果:

在这里插入图片描述

搞起来!

第一步 生成报告

没听错,爬虫先放着,无中生有,随便搞点数据先把报告生成了。

保存下面代码为report.py,后面会用这个名字引入。

from dominate.tags import *"""
雷学委特制的生成html报告的函数
"""
def generate_html(tuples):_html = html()_head = head()_head.add(title("雷学委整理的CSDN热榜报告"))_head.add(meta(charset="utf-8"))_html.add(_head)_body = _html.add(body())_table = table(border=1)with _table.add(tbody()):index = 0for tp in tuples:index += 1leiXW = tr()leiXW += td(str(index))leiXW += td(a(tp[1],href=tp[0]))with _body.add(div(cls="leixuewei")):h3("雷学委整理的CSDN热榜")_body.add(_table)return _html.render()"""
雷学委特制的直接生成保存报告的函数
"""
def lei_report(leixuewei_tuples, path):data = generate_html(leixuewei_tuples)with open(path, "w") as f:f.write(data)if __name__ == "__main__":lxw_tuples = []lxw_tuples.append(("https://blog.csdn.net/geeklevin/article/details/119594295","雷学委Python生成Html报表"))lxw_tuples.append(("https://blog.csdn.net/geeklevin/article/details/116771659","Docker玩腻了,不妨试试用Vagrant"))path = "./csdn_rank.html"lei_report(lxw_tuples, path)

代码解析

上的代码生成一个html网页,并保存到path变量指定路径。

  1. 准备一个二元组的数组
  2. 传入generate_html函数,这个函数构建带head和body。其中body再迭代输入的数组,生成一个表格。
  3. 将表格内容输出写入到文件中

效果如下:

在这里插入图片描述

第二步改造之前的爬虫代码

也就是这篇热榜长榜单爬虫截屏的文章 里面的核心代码,下面直接改造。

'''
雷学委应对流式页面的爬虫解决秘诀
截屏的核心代码:
'''
def resolve_height(driver, pageh_factor=5):js = "return action=document.body.scrollHeight"height = 0page_height = driver.execute_script(js)ref_pageh = int(page_height * pageh_factor)step = 150 max_count = 15 count = 0 while count < max_count and height < page_height:#scroll down to page bottomfor i in range(height, ref_pageh, step):count+=1vh = islowjs='window.scrollTo(0, {})'.format(vh)print('[雷学委 Demo]exec js: %s' % slowjs)driver.execute_script(slowjs)sleep(0.3)if i >= ref_pageh- step:print('[雷学委 Demo]not fully read')breakheight = page_heightsleep(2)page_height = driver.execute_script(js)print("finish scroll")return page_height#获取窗口实际高度
page_height = resolve_height(driver)
print("[雷学委 Demo]page height : %s"%page_height)
sleep(5)
driver.execute_script('document.documentElement.scrollTop=0')
sleep(1)
driver.save_screenshot(img_path)
page_height = driver.execute_script('return document.documentElement.scrollHeight') # 页面高度
print("get accurate height : %s" % page_height)#上面的代码跟源自前一篇#引用报表功能
from report import lei_report#拉到页面底部
driver.execute_script(f'document.documentElement.scrollTop={page_height};')
sleep(1)
driver.save_screenshot(f'./leixuewei_rank_end.png')
blogs = driver.find_elements_by_xpath("//div[@class='hosetitem-title']/a")#生成数组
articles = []
for blog in blogs:link = blog.get_attribute("href")title = blog.textarticles.append((link,title))print('get %s articles' % len(articles))
print('articles : %s ' % str(articles))#给定路径,生成html报告
path = "./leixuewei_csdn_rank.html"
lei_report(articles, path)
print("保存热榜到路径:%s" %path)"""LeiXueWei Demo代码,白嫖这么多了,关注三连支持一下吧!"""

代码解析

前篇的流式处理的爬虫代码删去了截屏合并代码段。

然后,重点来了。如下步骤:

  1. 爬虫直接拉到底部,获取链接,生成数组
  2. 接着截图页面尾部,以后可以留作纪念
  3. 导入调用lei_report 函数,生成页面

比较简单的,不一行一行解读了。

效果如下:

报表太长了截图截了个头尾,看看。
在这里插入图片描述
在这里插入图片描述

总结:这篇多看看

本文仅作展示目的,对于演示网站有任何异议,请告知修改。

最后使用爬虫必须谨慎,不要当做儿戏去爬机构网站。你学习也不能拿严肃的网络来刷,这个行为会让你吃上LAO饭!

对了,学委还有这个可以关注长期阅读 =>雷学委趣味编程故事汇编
或者=> 雷学委NodeJS系列

持续学习持续开发,我是雷学委!
编程很有趣,关键是把技术搞透彻讲明白。
创作不易,请多多支持,点赞收藏支持学委吧!

这篇关于❤️爬虫截热榜长屏不方便阅读!推荐dominate直接生成报告❤️的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/207076

相关文章

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)

《SpringBoot整合Kafka启动失败的常见错误问题总结(推荐)》本文总结了SpringBoot项目整合Kafka启动失败的常见错误,包括Kafka服务器连接问题、序列化配置错误、依赖配置问题、... 目录一、Kafka服务器连接问题1. Kafka服务器无法连接2. 开发环境与生产环境网络不通二、序

SpringBoot集成iText快速生成PDF教程

《SpringBoot集成iText快速生成PDF教程》本文介绍了如何在SpringBoot项目中集成iText9.4.0生成PDF文档,包括新特性的介绍、环境准备、Service层实现、Contro... 目录SpringBoot集成iText 9.4.0生成PDF一、iText 9新特性与架构变革二、环

Python多任务爬虫实现爬取图片和GDP数据

《Python多任务爬虫实现爬取图片和GDP数据》本文主要介绍了基于FastAPI开发Web站点的方法,包括搭建Web服务器、处理图片资源、实现多任务爬虫和数据可视化,同时,还简要介绍了Python爬... 目录一. 基于FastAPI之Web站点开发1. 基于FastAPI搭建Web服务器2. Web服务

idea-java序列化serialversionUID自动生成方式

《idea-java序列化serialversionUID自动生成方式》Java的Serializable接口用于实现对象的序列化和反序列化,通过将对象转换为字节流来存储或传输,实现Serializa... 目录简介实现序列化serialVersionUID配置使用总结简介Java.io.Seripyth

Java中的随机数生成案例从范围字符串到动态区间应用

《Java中的随机数生成案例从范围字符串到动态区间应用》本文介绍了在Java中生成随机数的多种方法,并通过两个案例解析如何根据业务需求生成特定范围的随机数,本文通过两个实际案例详细介绍如何在java中... 目录Java中的随机数生成:从范围字符串到动态区间应用引言目录1. Java中的随机数生成基础基本随

C#自动化生成PowerPoint(PPT)演示文稿

《C#自动化生成PowerPoint(PPT)演示文稿》在当今快节奏的商业环境中,演示文稿是信息传递和沟通的关键工具,下面我们就深入探讨如何利用C#和Spire.Presentationfor.NET... 目录环境准备与Spire.Presentation安装核心操作:添加与编辑幻灯片元素添加幻灯片文本操

Python实现Word文档自动化的操作大全(批量生成、模板填充与内容修改)

《Python实现Word文档自动化的操作大全(批量生成、模板填充与内容修改)》在职场中,Word文档是公认的好伙伴,但你有没有被它折磨过?批量生成合同、制作报告以及发放证书/通知等等,这些重复、低效... 目录重复性文档制作,手动填充模板,效率低下还易错1.python-docx入门:Word文档的“瑞士

使用python生成固定格式序号的方法详解

《使用python生成固定格式序号的方法详解》这篇文章主要为大家详细介绍了如何使用python生成固定格式序号,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录生成结果验证完整生成代码扩展说明1. 保存到文本文件2. 转换为jsON格式3. 处理特殊序号格式(如带圈数字)4

Java使用Swing生成一个最大公约数计算器

《Java使用Swing生成一个最大公约数计算器》这篇文章主要为大家详细介绍了Java使用Swing生成一个最大公约数计算器的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下... 目录第一步:利用欧几里得算法计算最大公约数欧几里得算法的证明情形 1:b=0情形 2:b>0完成相关代码第二步:加