基于Puppeteer实现配置自动化

2024-01-26 08:44

本文主要是介绍基于Puppeteer实现配置自动化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前两篇文章《Node.js和Puppeteer进行Web抓取的简单使用》 和《Puppeteer结合Jest对网页进行测试》已经了解到Puppeteer大致可以做点什么事情,之前提到过最终自动化需要一个数组配置。这篇文章将会简单是一个读取配置文件实现自动化的脚本。

脚本

就拿《Node.js和Puppeteer进行Web抓取的简单使用》 代码举例:

const puppeteer = require(‘puppeteer’);
let scrape = async () => {
// 打开一个浏览器const browser = await puppeteer.launch();// 新建一个页面const page = await browser.newPage();   // 打开urlawait page.goto(‘https://www.johancruijffarena.nl/calendar.htm');   // 针对某个元素 获取数据const result = await page.evaluate(() => {var data = [];var tables = document.querySelectorAll(‘table’);data = tables.length;     return data;}, );   // 关闭浏览器browser.close();return result
}
scrape().then((value) => {console.log(value);
});

这个就是日常mk代码逻辑,如果要转换配置化,那就先理清步骤,然后对配置数据建模。

开始构建数据、纯函数

从代码看出来,可以列出步骤如下:
步骤1: 打开一个浏览器;
步骤2: 新建一个页面;
步骤3: 打开url;
步骤4: 针对某个元素 获取数据;
步骤5: 关闭浏览器
可以看出每个步骤都是一个操作类型,这个时候,数据里面可以定一个操作类型的key:nodeType;

{nodeType: any
}

步骤1

因为一个流程只操作一个浏览器,因此配置数据可以省略这个步骤,当程序运行时默认执行这个步骤就好了,同时帮步骤1操作提取一个函数(尽量保证是一个纯函数,后续会有篇幅),

const getBrowser = async () => {const browser = await puppeteer.launch();return browser
}

步骤2和步骤3

步骤2和步骤3可以合并成一个步骤,打开一个页面,那必须得跳转url吧!那么可得到一个配置数据:

{nodeType: 'start',url: 'https://www.johancruijffarena.nl/calendar.htm'
},

创建一个只打开页面的纯函数:

const runNodeStart = async (arg) => {const { browser, task } = argconst { url } = taskconst page = await browser.newPage()await page.goto(url, {waitUntil: 'domcontentloaded',});return page
}

步骤4

该操作也得定义nodeType,告诉程序该做什么事情,因为需要检索元素需要关键字,可以设置selector为key

{nodeType: 'pick',selector: 'table'
}

函数:

const getPick = async (arg) => {const {  task } = argconst { selector } = taskconst result = await page.evaluate(() => {var data = [];var tables = document.querySelectorAll( selector );data = tables.length;     return data;}, );   return  result
}

步骤5:

同理可以得到一个配置数据:

{nodeType: 'close',
},

一个函数:

const runClose = async (arg) => {const { browser, task, page } = argawait browser.close();return false
}

配置数据如下

const datas = [
{. // 打开页面 nodeType: 'start',url: 'https://www.johancruijffarena.nl/calendar.htm'
},
{ // 获取数据nodeType: 'pick',selector: 'table'
},
{ // 关闭浏览器nodeType: 'close',
},
]

MK代码实现

其实一看数据配置就是一个数组,只要我们遍历这个数组,就可以完成我们配置自动化的效果。for循环简单粗暴:

const main = async () => {
const browser = await  getBrowser()
const len = datas.length
let page = null
let pickData = ''
for (let i = 0; i < len; i++) {const { nodeType } = datas[i]if (nodeType === 'start') {const data =   await  runNodeStart( { browser, task: datas[i]})page = data.page} else if (nodeType === 'pick') {pickData = await  getPick( { browser, task: datas[i], page} )} else if (nodeType === 'close') {await runClose({browser})}
}
}

当然这块代码,还是有很大的优化空间,必须实现功能较全的自动化,通过for、if、else if去实现,代码不太优雅!!!各位有啥想法不?优雅的优化方式!!!

这篇关于基于Puppeteer实现配置自动化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/646239

相关文章

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

PostgreSQL中MVCC 机制的实现

《PostgreSQL中MVCC机制的实现》本文主要介绍了PostgreSQL中MVCC机制的实现,通过多版本数据存储、快照隔离和事务ID管理实现高并发读写,具有一定的参考价值,感兴趣的可以了解一下... 目录一 MVCC 基本原理python1.1 MVCC 核心概念1.2 与传统锁机制对比二 Postg

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

Redis Cluster模式配置

《RedisCluster模式配置》:本文主要介绍RedisCluster模式配置,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录分片 一、分片的本质与核心价值二、分片实现方案对比 ‌三、分片算法详解1. ‌范围分片(顺序分片)‌2. ‌哈希分片3. ‌虚

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

基于Python实现一个Windows Tree命令工具

《基于Python实现一个WindowsTree命令工具》今天想要在Windows平台的CMD命令终端窗口中使用像Linux下的tree命令,打印一下目录结构层级树,然而还真有tree命令,但是发现... 目录引言实现代码使用说明可用选项示例用法功能特点添加到环境变量方法一:创建批处理文件并添加到PATH1