WebMagic高级用法

2024-04-30 09:32
文章标签 用法 高级 webmagic

本文主要是介绍WebMagic高级用法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Maven依赖

<dependencies><dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.7.3</version></dependency><dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.7.3</version></dependency></dependencies>

设置PageProcessor

设置请求header、cookie,很多网站都要专门的header才能正确网站,否则会出现访问错误

使用skip来阻止pipline处理

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;public class GithubRepoPageProcessor implements PageProcessor {private Site site = Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000).addHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36");@Overridepublic void process(Page page) {if(!page.getUrl().toString().startsWith("https://github.com/code4craft")){//skip为true,则不会通知pipeline处理page.setSkip(true);}page.addTargetRequests(page.getHtml().links().regex("https://github\\.com/code4craft.*").all());}@Overridepublic Site getSite() {//header、cookie在Site对象里面设置return site;}public static void main(String[] args) {Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(1).run();}
}

设置pipline

自定义实现爬取数据的输出,比如调用http接口上传数据

package com.lenovo.spider;import java.io.File;
import java.io.IOException;
import java.util.Date;
import java.util.List;
import java.util.Map;
import java.util.concurrent.Executors;
import java.util.concurrent.LinkedBlockingQueue;
import java.util.concurrent.ScheduledExecutorService;
import java.util.concurrent.TimeUnit;
import java.util.concurrent.atomic.AtomicInteger;import org.apache.commons.io.FileUtils;
import org.apache.commons.lang3.math.NumberUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import com.lenovo.exception.NetException;
import com.lenovo.spider.http.HttpInterface;import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;public class QiChaChaPipline implements Pipeline {private Logger logger = LoggerFactory.getLogger("spider");private static AtomicInteger uploadCount;private static ScheduledExecutorService threadPool = Executors.newScheduledThreadPool(1);private static final LinkedBlockingQueue<JSONObject> dataQueue = new LinkedBlockingQueue<>(100 * 10000);public QiChaChaPipline() {threadPool.execute(() -> upload());}@Overridepublic void process(ResultItems resultItems, Task task) {JSONObject company = new JSONObject(resultItems.get("company_map"));dataQueue.offer(company);}public void upload() {while (true) {JSONObject company = null;try {company = dataQueue.take();} catch (InterruptedException e1) {}if (company != null) {try {HttpInterface.uploadCompanyInfo(company);logger.info(company.toString());logger.debug("上传统计:" + uploadCount.incrementAndGet());} catch (NetException e) {dataQueue.offer(company);}}}}
}
QiChaChaPipline pipline = new QiChaChaPipline();
spider.addPipeline(pipline);

设置downloader

WebMagic默认使用HttpClientDownloader,如果要在下载失败后切换代理ip如下:

Spider spider = Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(1);HttpClientDownloader downloader = new HttpClientDownloader(){@Overrideprotected void onError(Request request) {setProxyProvider(SimpleProxyProvider.from(new Proxy("10.10.10.10", 8888)));}};spider.setDownloader(downloader);

使用SelenuimDownloader下载js动态渲染过后的网页,不过SelenuimDownloader有点软肋就是默认的WebDriverPool不能设置代理ip,要能设置代理ip必须重写WebDriverPool和SelenuimDownloader

scheduler

默认的scheduler就会自动去重已经爬取过的url

使用RedisScheduler实现分布式爬虫,共享爬取队列,重启爬虫不会导致从头开始爬

RedisScheduler scheduler = new RedisScheduler(new JedisPool("10.100.124.206", 6379));
//    	FileCacheQueueScheduler scheduler = new FileCacheQueueScheduler("urls");
//    	QueueScheduler scheduler = new QueueScheduler();
spider.setScheduler(scheduler);

设置spider

设置页面下载成功、失败的监听器,方便失败的时候做一些善后处理,比如把失败的url再加入到爬取队列里面,这样就不会遗漏一些页面的爬取

手动添加爬去url到待爬队列,通过设置Request.CYCLE_TRIED_TIMES设置失败重试次数,可以强制把url加到待爬队列里面,避免去重机制把url看成已爬过的

ArrayList<SpiderListener> listeners = new ArrayList<>();listeners.add(new SpiderListener() {@Overridepublic void onSuccess(Request request) {}@Overridepublic void onError(Request request) {Integer cycleTriedTimes = 
(Integer)request.getExtra(Request.CYCLE_TRIED_TIMES);request.putExtra(Request.CYCLE_TRIED_TIMES, cycleTriedTimes == null ? 1 : cycleTriedTimes + 1);spider.addRequest(request);}});spider.setSpiderListeners(listeners);

尽量使用xpath

因为css选择器语法各开源支持有很多细节的不统一,而xpath有统一的标准,一般不会出错

打印WebMagic框架内日志

WebMagic使用的是slf4j api打印日志,只需加入log4j.xml日志配置文件到classpath路径就可以打印日志

<?xml version="1.0" encoding="UTF-8"?>    
<!DOCTYPE log4j:configuration SYSTEM "log4j.dtd"><log4j:configuration xmlns:log4j='http://jakarta.apache.org/log4j/'><appender name="consoleAppender" class="org.apache.log4j.ConsoleAppender"><layout class="org.apache.log4j.PatternLayout"><param name="ConversionPattern" value="[%p] [%d{yyyy-MM-dd HH:mm:ss}] [%l] [%t] %m%n" /></layout></appender><root><priority value="debug" /><appender-ref ref="consoleAppender" /></root></log4j:configuration>

这篇关于WebMagic高级用法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/948499

相关文章

Python 函数详解:从基础语法到高级使用技巧

《Python函数详解:从基础语法到高级使用技巧》本文基于实例代码,全面讲解Python函数的定义、参数传递、变量作用域及类型标注等知识点,帮助初学者快速掌握函数的使用技巧,感兴趣的朋友跟随小编一起... 目录一、函数的基本概念与作用二、函数的定义与调用1. 无参函数2. 带参函数3. 带返回值的函数4.

Linux中的自定义协议+序列反序列化用法

《Linux中的自定义协议+序列反序列化用法》文章探讨网络程序在应用层的实现,涉及TCP协议的数据传输机制、结构化数据的序列化与反序列化方法,以及通过JSON和自定义协议构建网络计算器的思路,强调分层... 目录一,再次理解协议二,序列化和反序列化三,实现网络计算器3.1 日志文件3.2Socket.hpp

javaSE类和对象进阶用法举例详解

《javaSE类和对象进阶用法举例详解》JavaSE的面向对象编程是软件开发中的基石,它通过类和对象的概念,实现了代码的模块化、可复用性和灵活性,:本文主要介绍javaSE类和对象进阶用法的相关资... 目录前言一、封装1.访问限定符2.包2.1包的概念2.2导入包2.3自定义包2.4常见的包二、stati

Java Stream 的 Collectors.toMap高级应用与最佳实践

《JavaStream的Collectors.toMap高级应用与最佳实践》文章讲解JavaStreamAPI中Collectors.toMap的使用,涵盖基础语法、键冲突处理、自定义Map... 目录一、基础用法回顾二、处理键冲突三、自定义 Map 实现类型四、处理 null 值五、复杂值类型转换六、处理

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

C语言中%zu的用法解读

《C语言中%zu的用法解读》size_t是无符号整数类型,用于表示对象大小或内存操作结果,%zu是C99标准中专为size_t设计的printf占位符,避免因类型不匹配导致错误,使用%u或%d可能引发... 目录size_t 类型与 %zu 占位符%zu 的用途替代占位符的风险兼容性说明其他相关占位符验证示

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

全面解析Golang 中的 Gorilla CORS 中间件正确用法

《全面解析Golang中的GorillaCORS中间件正确用法》Golang中使用gorilla/mux路由器配合rs/cors中间件库可以优雅地解决这个问题,然而,很多人刚开始使用时会遇到配... 目录如何让 golang 中的 Gorilla CORS 中间件正确工作一、基础依赖二、错误用法(很多人一开

Java Stream流之GroupBy的用法及应用场景

《JavaStream流之GroupBy的用法及应用场景》本教程将详细介绍如何在Java中使用Stream流的groupby方法,包括基本用法和一些常见的实际应用场景,感兴趣的朋友一起看看吧... 目录Java Stream流之GroupBy的用法1. 前言2. 基础概念什么是 GroupBy?Stream

Java Spring的依赖注入理解及@Autowired用法示例详解

《JavaSpring的依赖注入理解及@Autowired用法示例详解》文章介绍了Spring依赖注入(DI)的概念、三种实现方式(构造器、Setter、字段注入),区分了@Autowired(注入... 目录一、什么是依赖注入(DI)?1. 定义2. 举个例子二、依赖注入的几种方式1. 构造器注入(Con