开源框架WebCollector抓取图片初试

2024-04-05 07:08

本文主要是介绍开源框架WebCollector抓取图片初试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

官网地址:https://github.com/CrawlScript/WebCollector 。这是java版本,如果想要体验Python版本的话请移步 https://github.com/CrawlScript/WebCollector-Python

其它介绍文章

  • https://www.freesion.com/article/255392486/
  • https://blog.csdn.net/AJAXHu/article/details/81108253

废话不多说,直接进入正题。首先用maven引入相关依赖,目前最新的是2.73-alpha版本

<dependency><groupId>cn.edu.hfut.dmic.webcollector</groupId><artifactId>WebCollector</artifactId><version>2.73-alpha</version>
</dependency>

具体如何使用请看下面示例代码,用来抓取网站的图片,具体哪个网站不太方便给出来,大家自行尝试。

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.util.ExceptionUtils;
import cn.edu.hfut.dmic.webcollector.util.FileUtils;
import cn.edu.hfut.dmic.webcollector.util.MD5Utils;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;/*** 继承 BreadthCrawler(广度爬虫)* BreadthCrawler 是 WebCollector 最常用的爬取器之一** @author hu*/
public class DemoCrawler extends BreadthCrawler {File baseDir = new File("images");/*** 构造一个基于伯克利DB的爬虫* 伯克利DB文件夹为crawlPath,crawlPath中维护了历史URL等信息* 不同任务不要使用相同的crawlPath* 两个使用相同crawlPath的爬虫并行爬取会产生错误** @param crawlPath 伯克利DB使用的文件夹*/public DemoCrawler(String crawlPath) {//设置是否自动解析网页内容super(crawlPath, true);//只有在autoParse和autoDetectImg都为true的情况下//爬虫才会自动解析图片链接//getConf().setAutoDetectImg(true);//如果使用默认的Requester,需要像下面这样设置一下网页大小上限//否则可能会获得一个不完整的页面//下面这行将页面大小上限设置为10M//getConf().setMaxReceiveSize(1024 * 1024 * 10);//添加种子URLaddSeed("http://www.xxx.com");//限定爬取范围addRegex("http://image.xxx.com/.*");addRegex("-.*#.*");addRegex("-.*\\?.*");//设置线程数setThreads(10);}@Overridepublic void visit(Page page, CrawlDatums next) {//根据http头中的Content-Type信息来判断当前资源是网页还是图片String contentType = page.contentType();if (contentType == null) {return;} else if (contentType.contains("html")) {//如果是网页,则抽取其中包含图片的URL,放入后续任务Elements imgs = page.select("img[src]");for (Element img : imgs) {String imgSrc = img.attr("abs:src");if (imgSrc.indexOf("thumb") < 0) {next.add(imgSrc);}}} else if (contentType.startsWith("image")) {//如果是图片,直接下载String extensionName = contentType.split("/")[1];try {byte[] image = page.content();//限制文件大小 10kif (image.length < 10240) {return;}//根据图片MD5生成文件名String fileName = String.format("%s.%s", MD5Utils.md5(image), extensionName);File imageFile = new File(baseDir, fileName);FileUtils.write(imageFile, image);System.out.println("保存图片 " + page.url() + " 到 " + imageFile.getAbsolutePath());} catch (Exception e) {ExceptionUtils.fail(e);}}}// 主要解决下载图片出现403的问题// 自定义的请求插件// 可以自定义User-Agent和Cookiepublic static class MyRequester extends OkHttpRequester {String userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36";// 每次发送请求前都会执行这个方法来构建请求@Overridepublic Request.Builder createRequestBuilder(CrawlDatum crawlDatum) {// 这里使用的是OkHttp中的Request.Builder// 可以参考OkHttp的文档来修改请求头return super.createRequestBuilder(crawlDatum).removeHeader("User-Agent")  //移除默认的UserAgent.addHeader("Referer", "http://www.xxx.com").addHeader("User-Agent", userAgent);}}public static void main(String[] args) throws Exception {//crawl为日志目录DemoCrawler demoImageCrawler = new DemoCrawler("crawl");demoImageCrawler.setRequester(new MyRequester());//设置为断点爬取,否则每次开启爬虫都会重新爬取demoImageCrawler.setResumable(true);//爬取深度demoImageCrawler.start(5);}
}

示例代码参考了以下来源,稍微优化了一下
http://datahref.com/archives/132

这篇关于开源框架WebCollector抓取图片初试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877934

相关文章

Android使用ImageView.ScaleType实现图片的缩放与裁剪功能

《Android使用ImageView.ScaleType实现图片的缩放与裁剪功能》ImageView是最常用的控件之一,它用于展示各种类型的图片,为了能够根据需求调整图片的显示效果,Android提... 目录什么是 ImageView.ScaleType?FIT_XYFIT_STARTFIT_CENTE

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展:基于Py

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

C#实现将Excel表格转换为图片(JPG/ PNG)

《C#实现将Excel表格转换为图片(JPG/PNG)》Excel表格可能会因为不同设备或字体缺失等问题,导致格式错乱或数据显示异常,转换为图片后,能确保数据的排版等保持一致,下面我们看看如何使用C... 目录通过C# 转换Excel工作表到图片通过C# 转换指定单元格区域到图片知识扩展C# 将 Excel

JS+HTML实现在线图片水印添加工具

《JS+HTML实现在线图片水印添加工具》在社交媒体和内容创作日益频繁的今天,如何保护原创内容、展示品牌身份成了一个不得不面对的问题,本文将实现一个完全基于HTML+CSS构建的现代化图片水印在线工具... 目录概述功能亮点使用方法技术解析延伸思考运行效果项目源码下载总结概述在社交媒体和内容创作日益频繁的

使用Node.js制作图片上传服务的详细教程

《使用Node.js制作图片上传服务的详细教程》在现代Web应用开发中,图片上传是一项常见且重要的功能,借助Node.js强大的生态系统,我们可以轻松搭建高效的图片上传服务,本文将深入探讨如何使用No... 目录准备工作搭建 Express 服务器配置 multer 进行图片上传处理图片上传请求完整代码示例

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

Python实现AVIF图片与其他图片格式间的批量转换

《Python实现AVIF图片与其他图片格式间的批量转换》这篇文章主要为大家详细介绍了如何使用Pillow库实现AVIF与其他格式的相互转换,即将AVIF转换为常见的格式,比如JPG或PNG,需要的小... 目录环境配置1.将单个 AVIF 图片转换为 JPG 和 PNG2.批量转换目录下所有 AVIF 图