开源框架WebCollector抓取图片初试

2024-04-05 07:08

本文主要是介绍开源框架WebCollector抓取图片初试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

官网地址:https://github.com/CrawlScript/WebCollector 。这是java版本,如果想要体验Python版本的话请移步 https://github.com/CrawlScript/WebCollector-Python

其它介绍文章

  • https://www.freesion.com/article/255392486/
  • https://blog.csdn.net/AJAXHu/article/details/81108253

废话不多说,直接进入正题。首先用maven引入相关依赖,目前最新的是2.73-alpha版本

<dependency><groupId>cn.edu.hfut.dmic.webcollector</groupId><artifactId>WebCollector</artifactId><version>2.73-alpha</version>
</dependency>

具体如何使用请看下面示例代码,用来抓取网站的图片,具体哪个网站不太方便给出来,大家自行尝试。

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.util.ExceptionUtils;
import cn.edu.hfut.dmic.webcollector.util.FileUtils;
import cn.edu.hfut.dmic.webcollector.util.MD5Utils;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.File;/*** 继承 BreadthCrawler(广度爬虫)* BreadthCrawler 是 WebCollector 最常用的爬取器之一** @author hu*/
public class DemoCrawler extends BreadthCrawler {File baseDir = new File("images");/*** 构造一个基于伯克利DB的爬虫* 伯克利DB文件夹为crawlPath,crawlPath中维护了历史URL等信息* 不同任务不要使用相同的crawlPath* 两个使用相同crawlPath的爬虫并行爬取会产生错误** @param crawlPath 伯克利DB使用的文件夹*/public DemoCrawler(String crawlPath) {//设置是否自动解析网页内容super(crawlPath, true);//只有在autoParse和autoDetectImg都为true的情况下//爬虫才会自动解析图片链接//getConf().setAutoDetectImg(true);//如果使用默认的Requester,需要像下面这样设置一下网页大小上限//否则可能会获得一个不完整的页面//下面这行将页面大小上限设置为10M//getConf().setMaxReceiveSize(1024 * 1024 * 10);//添加种子URLaddSeed("http://www.xxx.com");//限定爬取范围addRegex("http://image.xxx.com/.*");addRegex("-.*#.*");addRegex("-.*\\?.*");//设置线程数setThreads(10);}@Overridepublic void visit(Page page, CrawlDatums next) {//根据http头中的Content-Type信息来判断当前资源是网页还是图片String contentType = page.contentType();if (contentType == null) {return;} else if (contentType.contains("html")) {//如果是网页,则抽取其中包含图片的URL,放入后续任务Elements imgs = page.select("img[src]");for (Element img : imgs) {String imgSrc = img.attr("abs:src");if (imgSrc.indexOf("thumb") < 0) {next.add(imgSrc);}}} else if (contentType.startsWith("image")) {//如果是图片,直接下载String extensionName = contentType.split("/")[1];try {byte[] image = page.content();//限制文件大小 10kif (image.length < 10240) {return;}//根据图片MD5生成文件名String fileName = String.format("%s.%s", MD5Utils.md5(image), extensionName);File imageFile = new File(baseDir, fileName);FileUtils.write(imageFile, image);System.out.println("保存图片 " + page.url() + " 到 " + imageFile.getAbsolutePath());} catch (Exception e) {ExceptionUtils.fail(e);}}}// 主要解决下载图片出现403的问题// 自定义的请求插件// 可以自定义User-Agent和Cookiepublic static class MyRequester extends OkHttpRequester {String userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36";// 每次发送请求前都会执行这个方法来构建请求@Overridepublic Request.Builder createRequestBuilder(CrawlDatum crawlDatum) {// 这里使用的是OkHttp中的Request.Builder// 可以参考OkHttp的文档来修改请求头return super.createRequestBuilder(crawlDatum).removeHeader("User-Agent")  //移除默认的UserAgent.addHeader("Referer", "http://www.xxx.com").addHeader("User-Agent", userAgent);}}public static void main(String[] args) throws Exception {//crawl为日志目录DemoCrawler demoImageCrawler = new DemoCrawler("crawl");demoImageCrawler.setRequester(new MyRequester());//设置为断点爬取,否则每次开启爬虫都会重新爬取demoImageCrawler.setResumable(true);//爬取深度demoImageCrawler.start(5);}
}

示例代码参考了以下来源,稍微优化了一下
http://datahref.com/archives/132

这篇关于开源框架WebCollector抓取图片初试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877934

相关文章

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python Web框架Flask、Streamlit、FastAPI示例详解

《PythonWeb框架Flask、Streamlit、FastAPI示例详解》本文对比分析了Flask、Streamlit和FastAPI三大PythonWeb框架:Flask轻量灵活适合传统应用... 目录概述Flask详解Flask简介安装和基础配置核心概念路由和视图模板系统数据库集成实际示例Stre

Olingo分析和实践之OData框架核心组件初始化(关键步骤)

《Olingo分析和实践之OData框架核心组件初始化(关键步骤)》ODataSpringBootService通过初始化OData实例和服务元数据,构建框架核心能力与数据模型结构,实现序列化、URI... 目录概述第一步:OData实例创建1.1 OData.newInstance() 详细分析1.1.1

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Spring 框架之Springfox使用详解

《Spring框架之Springfox使用详解》Springfox是Spring框架的API文档工具,集成Swagger规范,自动生成文档并支持多语言/版本,模块化设计便于扩展,但存在版本兼容性、性... 目录核心功能工作原理模块化设计使用示例注意事项优缺点优点缺点总结适用场景建议总结Springfox 是

利用Python脚本实现批量将图片转换为WebP格式

《利用Python脚本实现批量将图片转换为WebP格式》Python语言的简洁语法和库支持使其成为图像处理的理想选择,本文将介绍如何利用Python实现批量将图片转换为WebP格式的脚本,WebP作为... 目录简介1. python在图像处理中的应用2. WebP格式的原理和优势2.1 WebP格式与传统

Python的端到端测试框架SeleniumBase使用解读

《Python的端到端测试框架SeleniumBase使用解读》:本文主要介绍Python的端到端测试框架SeleniumBase使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录SeleniumBase详细介绍及用法指南什么是 SeleniumBase?SeleniumBase

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O