Puppeteer的高级用法:如何在Node.js中实现复杂的Web Scraping

2024-09-03 06:12

本文主要是介绍Puppeteer的高级用法:如何在Node.js中实现复杂的Web Scraping,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬虫代理.png

概述

随着互联网的发展,网页数据抓取(Web Scraping)已成为数据分析和市场调研的重要手段之一。Puppeteer作为一款强大的无头浏览器自动化工具,能够在Node.js环境中模拟用户行为,从而高效地抓取网页数据。然而,当面对复杂的网页结构和反爬虫机制时,基础的爬虫技术往往无法满足需求。本文将深入探讨如何在Node.js中利用Puppeteer的高级功能,实现复杂的Web Scraping任务,并通过代理IP、User-Agent、Cookies等技术提高爬虫的成功率。

细节
1. Puppeteer简介与安装

Puppeteer是由Google开发的一款无头浏览器工具,它可以控制Chromium或Chrome浏览器进行各种自动化操作。使用Puppeteer,开发者可以模拟浏览器的行为,例如点击、输入、导航等,甚至可以生成页面的PDF或截图。
安装Puppeteer非常简单,只需在Node.js环境中执行以下命令:

npm install puppeteer
2. 设置代理IP、User-Agent与Cookies

在进行Web Scraping时,使用代理IP可以有效避免被目标网站限制,尤其是在大量请求的情况下。此外,通过设置User-Agent和Cookies,爬虫可以伪装成真实用户的访问行为,从而进一步提高数据抓取的成功率。
以下是一个使用Puppeteer进行复杂Web Scraping的示例代码(BOSS直聘),代码中使用了亿牛云的爬虫代理,并设置了User-Agent与Cookies信息。

const puppeteer = require('puppeteer');// 配置代理IP的信息 亿牛云爬虫代理 www.16yun.cn
const proxy = {host: 'proxy.16yun.cn', // 代理IP端口服务器port: 8000, // 代理IP端口username: '你的代理用户名', // 代理IP用户名password: '你的代理密码' // 代理IP密码
};// 用户代理信息(User-Agent)
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36';// 预设的Cookies信息
const cookies = [{name: 'your_cookie_name', // 替换为实际的Cookie名称value: 'your_cookie_value', // 替换为实际的Cookie值domain: '.zhipin.com' // Boss直聘的域名}
];(async () => {// 启动Puppeteer浏览器实例,并设置代理IPconst browser = await puppeteer.launch({headless: true, // 无头模式args: [`--proxy-server=${proxy.host}:${proxy.port}` // 配置代理IP]});// 创建一个新的浏览器页面const page = await browser.newPage();// 设置User-Agentawait page.setUserAgent(userAgent);// 设置代理IP的认证await page.authenticate({username: proxy.username,password: proxy.password});// 设置Cookiesawait page.setCookie(...cookies);// 导航到Boss直聘的应聘简历页面await page.goto('https://www.zhipin.com/web/geek/job-recommend', { waitUntil: 'networkidle2' });// 等待页面中的简历列表加载完成await page.waitForSelector('.geek-item');// 抓取简历信息const resumes = await page.evaluate(() => {const resumeElements = document.querySelectorAll('.geek-item');const resumeData = [];resumeElements.forEach((element) => {const name = element.querySelector('.name').innerText; // 应聘者姓名const jobTitle = element.querySelector('.job-name').innerText; // 目标职位const experience = element.querySelector('.text').innerText; // 工作经验const location = element.querySelector('.address').innerText; // 所在城市const salary = element.querySelector('.salary').innerText; // 期望薪资resumeData.push({ name, jobTitle, experience, location, salary });});return resumeData;});// 打印抓取的简历数据console.log(resumes);// 在抓取完成后关闭浏览器await browser.close();
})();
3. 代码解析
  • 代理IP设置:通过--proxy-server参数设置代理IP,避免IP被封禁的风险。同时,使用page.authenticate()方法对代理IP进行认证。
  • User-Agent设置:通过page.setUserAgent()方法伪装请求的浏览器信息,模拟真实用户的访问行为。
  • Cookies设置:通过page.setCookie()方法预设Cookies信息,以维持会话状态或绕过登录验证。
  • 页面抓取:通过page.goto()方法导航到目标网页,并使用page.content()方法获取网页内容。
4. 代理IP与Puppeteer的配合

使用代理IP进行Web Scraping时,建议选择一个稳定、速度快的代理服务商,例如亿牛云爬虫代理。通过使用稳定的代理服务,可以大大提高爬虫的效率和成功率。此外,合理设置抓取频率和随机等待时间,也能有效避免触发目标网站的反爬虫机制。

5. 提高爬虫效率的其他技巧
  • 使用并发请求:在不影响目标网站的前提下,可以使用Puppeteer的并发功能,批量抓取多个页面的数据,以提高抓取效率。
  • 动态加载处理:对于动态加载的网页,可以使用page.waitForSelector()page.waitForTimeout()方法,确保所有数据加载完成后再进行抓取。
  • 错误处理与重试机制:在Web Scraping过程中,难免会遇到网络异常或抓取失败的情况。通过设置错误处理与重试机制,可以提高爬虫的鲁棒性。
结论

Puppeteer作为一款功能强大的无头浏览器自动化工具,在Web Scraping领域具有广泛的应用前景。通过合理配置代理IP、User-Agent与Cookies,开发者可以有效提升爬虫的成功率,并规避目标网站的反爬虫机制。希望本文的内容能够帮助你在Node.js环境中更好地掌握Puppeteer的高级用法,并在实际项目中成功实现复杂的Web Scraping任务。

这篇关于Puppeteer的高级用法:如何在Node.js中实现复杂的Web Scraping的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1132248

相关文章

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

C++高效内存池实现减少动态分配开销的解决方案

《C++高效内存池实现减少动态分配开销的解决方案》C++动态内存分配存在系统调用开销、碎片化和锁竞争等性能问题,内存池通过预分配、分块管理和缓存复用解决这些问题,下面就来了解一下... 目录一、C++内存分配的性能挑战二、内存池技术的核心原理三、主流内存池实现:TCMalloc与Jemalloc1. TCM

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

mapstruct中的@Mapper注解的基本用法

《mapstruct中的@Mapper注解的基本用法》在MapStruct中,@Mapper注解是核心注解之一,用于标记一个接口或抽象类为MapStruct的映射器(Mapper),本文给大家介绍ma... 目录1. 基本用法2. 常用属性3. 高级用法4. 注意事项5. 总结6. 编译异常处理在MapSt

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

基于Python实现一个Windows Tree命令工具

《基于Python实现一个WindowsTree命令工具》今天想要在Windows平台的CMD命令终端窗口中使用像Linux下的tree命令,打印一下目录结构层级树,然而还真有tree命令,但是发现... 目录引言实现代码使用说明可用选项示例用法功能特点添加到环境变量方法一:创建批处理文件并添加到PATH1

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

java中long的一些常见用法

《java中long的一些常见用法》在Java中,long是一种基本数据类型,用于表示长整型数值,接下来通过本文给大家介绍java中long的一些常见用法,感兴趣的朋友一起看看吧... 在Java中,long是一种基本数据类型,用于表示长整型数值。它的取值范围比int更大,从-922337203685477

Nexus安装和启动的实现教程

《Nexus安装和启动的实现教程》:本文主要介绍Nexus安装和启动的实现教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Nexus下载二、Nexus安装和启动三、关闭Nexus总结一、Nexus下载官方下载链接:DownloadWindows系统根