网络爬虫--HtmlUnit

2024-05-14 14:58
文章标签 html 网络 爬虫 frontend unit

本文主要是介绍网络爬虫--HtmlUnit,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、简介
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一
2、官方API文档
HtmlUnit官网API文档
3、pom文件

<dependency><groupId>net.sourceforge.htmlunit</groupId><artifactId>htmlunit</artifactId><version>2.26</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.21</version></dependency>

4、测试代码

package com.sun.htmlunit;import org.junit.Test;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.DomElement;
import com.gargoylesoftware.htmlunit.html.DomNodeList;
import com.gargoylesoftware.htmlunit.html.HtmlDivision;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSubmitInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;/*** htmlunit测试* @author sunt* @dade 2017年4月17日上午11:04:22* @version v1.0*/
public class HtmlUnitTestDemo {/*** 日志*/private static Logger logger = LoggerFactory.getLogger(HtmlUnitTestDemo.class);/*** htmlunit入门测试*/@Testpublic void test1() {//实例化web客户端WebClient client = new WebClient();try {//解析请求url页面HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.info("===========>获取请求页面的html:" + page.asXml());logger.info("=============>获取请求页面内容:" + page.asText());} catch (Exception e) {logger.error("=====HtmlUnitTestDemo===test1===>" + e.getMessage());}finally{//关闭客户端、释放内存client.close();}}/*** 模拟浏览器的请求,解决部分网址拒绝访问*/@Testpublic void test2() {//初始化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {HtmlPage page = client.getPage("http://mvnrepository.com");logger.debug("=====================>获取请求页面的html内容:" + page.asXml());} catch (Exception e) {logger.error("=======test2==========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 获取指定元素*/@Testpublic void test3() {//初始化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");//获取指定id的html内容HtmlDivision division = page.getHtmlElementById("navMenu");logger.debug("================>指定html的内容:" + division.asXml());//通过name获取html内容DomNodeList<DomElement> tagList = page.getElementsByTagName("a");for (DomElement domElement : tagList) {logger.debug("===========>byTagName:" + domElement.asXml());}} catch (Exception e) {logger.error("=====test3===========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 模拟点击事件实现搜索功能*/@Testpublic void test4() {//实例化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {//获取解析的页面HtmlPage page = client.getPage("http://blog.java1234.com/index.html");//获取提交的表单HtmlForm form = page.getFormByName("myform");//获取输入框HtmlTextInput input = form.getInputByName("q");//获取提交的按钮HtmlSubmitInput submitInput = form.getInputByName("submitButton");for (int i = 0; i < 1000; i++) {//设置输入框的值input.setValueAttribute("java" + i);//模拟点击、提交表单HtmlPage result = submitInput.click();logger.info("===========>搜索的结果:" + result.asXml());}} catch (Exception e) {logger.error("===========test4========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 代理IP*/@Testpublic void test5() {//初始化客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52, "58.118.185.100", 8998);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.debug("=======html内容:====>" + page.asXml());} catch (Exception e) {logger.error("===========test5=========>" + e.getMessage());}finally{client.close();}}/*** 对于非js加载的页面取消js和css的解析*/@Testpublic void test6() {//实例化客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);//取消客户端对js和css的解析client.getOptions().setCssEnabled(false);client.getOptions().setJavaScriptEnabled(false);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.debug("==============>获取的html内容:" + page.asXml());} catch (Exception e) {logger.error("========error========test6====>" + e.getMessage());}finally{client.close();}}/*** 爬取ajax加载的页面httpclient无法抓去到数据*/@Testpublic void test7() {WebClient client = new WebClient(BrowserVersion.FIREFOX_52);HtmlPage page = null;try {page = client.getPage("https://pan.baidu.com/share/home?uk=305605848#category/type=0");//线程休眠等待js加载Thread.sleep(10000);logger.info("==========>抓去到的html内容:" + page.asXml());} catch (Exception e) {logger.error("=====error===test7=====>" + e.getMessage());}finally{client.close();}}
}

这篇关于网络爬虫--HtmlUnit的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/989059

相关文章

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

前端如何通过nginx访问本地端口

《前端如何通过nginx访问本地端口》:本文主要介绍前端如何通过nginx访问本地端口的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、nginx安装1、下载(1)下载地址(2)系统选择(3)版本选择2、安装部署(1)解压(2)配置文件修改(3)启动(4)

HTML中meta标签的常见使用案例(示例详解)

《HTML中meta标签的常见使用案例(示例详解)》HTMLmeta标签用于提供文档元数据,涵盖字符编码、SEO优化、社交媒体集成、移动设备适配、浏览器控制及安全隐私设置,优化页面显示与搜索引擎索引... 目录html中meta标签的常见使用案例一、基础功能二、搜索引擎优化(seo)三、社交媒体集成四、移动

HTML input 标签示例详解

《HTMLinput标签示例详解》input标签主要用于接收用户的输入,随type属性值的不同,变换其具体功能,本文通过实例图文并茂的形式给大家介绍HTMLinput标签,感兴趣的朋友一... 目录通用属性输入框单行文本输入框 text密码输入框 password数字输入框 number电子邮件输入编程框

HTML img标签和超链接标签详细介绍

《HTMLimg标签和超链接标签详细介绍》:本文主要介绍了HTML中img标签的使用,包括src属性(指定图片路径)、相对/绝对路径区别、alt替代文本、title提示、宽高控制及边框设置等,详细内容请阅读本文,希望能对你有所帮助... 目录img 标签src 属性alt 属性title 属性width/h

CSS3打造的现代交互式登录界面详细实现过程

《CSS3打造的现代交互式登录界面详细实现过程》本文介绍CSS3和jQuery在登录界面设计中的应用,涵盖动画、选择器、自定义字体及盒模型技术,提升界面美观与交互性,同时优化性能和可访问性,感兴趣的朋... 目录1. css3用户登录界面设计概述1.1 用户界面设计的重要性1.2 CSS3的新特性与优势1.

HTML5 中的<button>标签用法和特征

《HTML5中的<button>标签用法和特征》在HTML5中,button标签用于定义一个可点击的按钮,它是创建交互式网页的重要元素之一,本文将深入解析HTML5中的button标签,详细介绍其属... 目录引言<button> 标签的基本用法<button> 标签的属性typevaluedisabled

HTML5实现的移动端购物车自动结算功能示例代码

《HTML5实现的移动端购物车自动结算功能示例代码》本文介绍HTML5实现移动端购物车自动结算,通过WebStorage、事件监听、DOM操作等技术,确保实时更新与数据同步,优化性能及无障碍性,提升用... 目录1. 移动端购物车自动结算概述2. 数据存储与状态保存机制2.1 浏览器端的数据存储方式2.1.

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

CSS place-items: center解析与用法详解

《CSSplace-items:center解析与用法详解》place-items:center;是一个强大的CSS简写属性,用于同时控制网格(Grid)和弹性盒(Flexbox)... place-items: center; 是一个强大的 css 简写属性,用于同时控制 网格(Grid) 和 弹性盒(F