使用 Node.js 和 Cheerio 爬取网站图片

2024-01-30 05:20

本文主要是介绍使用 Node.js 和 Cheerio 爬取网站图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写一个关于图片爬取的小案例

爬取效果

使用插件如下:

{"dependencies": {"axios": "^1.6.0","cheerio": "^1.0.0-rc.12","request": "^2.88.2"}
}

新建一个config.js配置文件

// 爬取图片网站
const url = 'http://m.hydcd.com/cy/fkccy/index9.htm'//可以自行修改网址
// http://www.hydcd.com/cy/fkccy/index.htm
// http://m.hydcd.com/cy/fkccy/
const path = require('path');
//图片下载文件夹
const imgDir = path.join(__dirname, 'img')module.exports.url = url
module.exports.imgDir = imgDir

找到需要下载的文件原元素位置

const cheerio = require('cheerio')function findImg(dom, callback) {let $ = cheerio.load(dom,{decodeEntities: false});//找到图片的位置 并获取图片链接$('table tbody tr td  img').each(function (i, elem) {let imgSrc = $(this).attr('src');let alt = $(this).attr('alt');callback(imgSrc, i,alt)})
}
module.exports.findImg = findImg;

const request = require('request')
const path = require('path')
const config = require('./config')
const analyze = require('./analyze')
const fs = require('fs')function start() {request(config.url, function (err, res, body) {console.log('start');if (!err && res) {console.log('start');analyze.findImg(body, download,{decodeEntities: false});}})
}
//这个图片地址链接前缀
let imgUrlPath = "http://m.hydcd.com/cy/fkccy/"
function download(imgUrl, i,alt) {console.log(imgUrl,"11111")let txt = imgUrl.split('images/')[1];request(imgUrlPath+imgUrl).pipe(fs.createWriteStream(path.join(config.imgDir,  txt), {'encoding': 'UTF-8',}))
}start();

以下是一个使用 Node.js 和 Cheerio 爬取网站图片的示例代码:

const axios = require('axios');
const cheerio = require('cheerio');
const fs = require('fs');// 定义要爬取的网页 URL
const url = 'https://example.com';// 发起 GET 请求获取网页内容
axios.get(url).then(response => {// 使用 Cheerio 加载网页内容const $ = cheerio.load(response.data);// 定义一个数组来保存图片 URLconst imageUrls = [];// 遍历页面中的图片标签$('img').each((index, element) => {// 获取图片的 src 属性值const imageUrl = $(element).attr('src');// 将图片的 URL 添加到数组中imageUrls.push(imageUrl);});// 下载图片imageUrls.forEach((imageUrl, index) => {// 发起 GET 请求获取图片内容axios.get(imageUrl, { responseType: 'stream' }).then(response => {// 创建一个可写流,将图片内容写入到文件中const writeStream = fs.createWriteStream(`image${index+1}.jpg`);// 将响应的数据流导向可写流response.data.pipe(writeStream);}).catch(error => {console.error(`下载图片失败:${error}`);});});}).catch(error => {console.error(`获取网页内容失败:${error}`);});

请注意,上述示例中的 https://example.com 是一个示例网站的 URL,你需要替换为你要爬取图片的实际网站 URL。

这段代码首先使用 Axios 发起 GET 请求获取网页内容,然后使用 Cheerio 加载网页内容,对图片标签进行遍历,获取图片的 src 属性值并保存到一个数组中。最后,通过循环遍历数组中的图片 URL,使用 Axios 再次发起 GET 请求获取图片内容,并通过可写流将图片内容写入到文件中。你可以自定义文件名和保存路径。

请注意,进行网站爬取时,一定要遵守法律法规,并注意对网站的使用限制和版权保护。同时,不要对不允许爬取的网站进行爬取,以免触犯相关法律法规并造成不良后果!!!!

这篇关于使用 Node.js 和 Cheerio 爬取网站图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/659210

相关文章

Python实现精准提取 PDF中的文本,表格与图片

《Python实现精准提取PDF中的文本,表格与图片》在实际的系统开发中,处理PDF文件不仅限于读取整页文本,还有提取文档中的表格数据,图片或特定区域的内容,下面我们来看看如何使用Python实... 目录安装 python 库提取 PDF 文本内容:获取整页文本与指定区域内容获取页面上的所有文本内容获取

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.

Python中使用uv创建环境及原理举例详解

《Python中使用uv创建环境及原理举例详解》uv是Astral团队开发的高性能Python工具,整合包管理、虚拟环境、Python版本控制等功能,:本文主要介绍Python中使用uv创建环境及... 目录一、uv工具简介核心特点:二、安装uv1. 通过pip安装2. 通过脚本安装验证安装:配置镜像源(可

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

使用Python开发一个现代化屏幕取色器

《使用Python开发一个现代化屏幕取色器》在UI设计、网页开发等场景中,颜色拾取是高频需求,:本文主要介绍如何使用Python开发一个现代化屏幕取色器,有需要的小伙伴可以参考一下... 目录一、项目概述二、核心功能解析2.1 实时颜色追踪2.2 智能颜色显示三、效果展示四、实现步骤详解4.1 环境配置4.

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

Java中Map.Entry()含义及方法使用代码

《Java中Map.Entry()含义及方法使用代码》:本文主要介绍Java中Map.Entry()含义及方法使用的相关资料,Map.Entry是Java中Map的静态内部接口,用于表示键值对,其... 目录前言 Map.Entry作用核心方法常见使用场景1. 遍历 Map 的所有键值对2. 直接修改 Ma

MySQL 衍生表(Derived Tables)的使用

《MySQL衍生表(DerivedTables)的使用》本文主要介绍了MySQL衍生表(DerivedTables)的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学... 目录一、衍生表简介1.1 衍生表基本用法1.2 自定义列名1.3 衍生表的局限在SQL的查询语句select

Mybatis Plus Join使用方法示例详解

《MybatisPlusJoin使用方法示例详解》:本文主要介绍MybatisPlusJoin使用方法示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录1、pom文件2、yaml配置文件3、分页插件4、示例代码:5、测试代码6、和PageHelper结合6