网络爬虫--HtmlUnit

2024-05-14 14:58
文章标签 html 网络 爬虫 frontend unit

本文主要是介绍网络爬虫--HtmlUnit,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、简介
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一
2、官方API文档
HtmlUnit官网API文档
3、pom文件

<dependency><groupId>net.sourceforge.htmlunit</groupId><artifactId>htmlunit</artifactId><version>2.26</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.21</version></dependency>

4、测试代码

package com.sun.htmlunit;import org.junit.Test;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.DomElement;
import com.gargoylesoftware.htmlunit.html.DomNodeList;
import com.gargoylesoftware.htmlunit.html.HtmlDivision;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSubmitInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;/*** htmlunit测试* @author sunt* @dade 2017年4月17日上午11:04:22* @version v1.0*/
public class HtmlUnitTestDemo {/*** 日志*/private static Logger logger = LoggerFactory.getLogger(HtmlUnitTestDemo.class);/*** htmlunit入门测试*/@Testpublic void test1() {//实例化web客户端WebClient client = new WebClient();try {//解析请求url页面HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.info("===========>获取请求页面的html:" + page.asXml());logger.info("=============>获取请求页面内容:" + page.asText());} catch (Exception e) {logger.error("=====HtmlUnitTestDemo===test1===>" + e.getMessage());}finally{//关闭客户端、释放内存client.close();}}/*** 模拟浏览器的请求,解决部分网址拒绝访问*/@Testpublic void test2() {//初始化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {HtmlPage page = client.getPage("http://mvnrepository.com");logger.debug("=====================>获取请求页面的html内容:" + page.asXml());} catch (Exception e) {logger.error("=======test2==========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 获取指定元素*/@Testpublic void test3() {//初始化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");//获取指定id的html内容HtmlDivision division = page.getHtmlElementById("navMenu");logger.debug("================>指定html的内容:" + division.asXml());//通过name获取html内容DomNodeList<DomElement> tagList = page.getElementsByTagName("a");for (DomElement domElement : tagList) {logger.debug("===========>byTagName:" + domElement.asXml());}} catch (Exception e) {logger.error("=====test3===========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 模拟点击事件实现搜索功能*/@Testpublic void test4() {//实例化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {//获取解析的页面HtmlPage page = client.getPage("http://blog.java1234.com/index.html");//获取提交的表单HtmlForm form = page.getFormByName("myform");//获取输入框HtmlTextInput input = form.getInputByName("q");//获取提交的按钮HtmlSubmitInput submitInput = form.getInputByName("submitButton");for (int i = 0; i < 1000; i++) {//设置输入框的值input.setValueAttribute("java" + i);//模拟点击、提交表单HtmlPage result = submitInput.click();logger.info("===========>搜索的结果:" + result.asXml());}} catch (Exception e) {logger.error("===========test4========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 代理IP*/@Testpublic void test5() {//初始化客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52, "58.118.185.100", 8998);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.debug("=======html内容:====>" + page.asXml());} catch (Exception e) {logger.error("===========test5=========>" + e.getMessage());}finally{client.close();}}/*** 对于非js加载的页面取消js和css的解析*/@Testpublic void test6() {//实例化客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);//取消客户端对js和css的解析client.getOptions().setCssEnabled(false);client.getOptions().setJavaScriptEnabled(false);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.debug("==============>获取的html内容:" + page.asXml());} catch (Exception e) {logger.error("========error========test6====>" + e.getMessage());}finally{client.close();}}/*** 爬取ajax加载的页面httpclient无法抓去到数据*/@Testpublic void test7() {WebClient client = new WebClient(BrowserVersion.FIREFOX_52);HtmlPage page = null;try {page = client.getPage("https://pan.baidu.com/share/home?uk=305605848#category/type=0");//线程休眠等待js加载Thread.sleep(10000);logger.info("==========>抓去到的html内容:" + page.asXml());} catch (Exception e) {logger.error("=====error===test7=====>" + e.getMessage());}finally{client.close();}}
}

这篇关于网络爬虫--HtmlUnit的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/989059

相关文章

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

基于Python Playwright进行前端性能测试的脚本实现

《基于PythonPlaywright进行前端性能测试的脚本实现》在当今Web应用开发中,性能优化是提升用户体验的关键因素之一,本文将介绍如何使用Playwright构建一个自动化性能测试工具,希望... 目录引言工具概述整体架构核心实现解析1. 浏览器初始化2. 性能数据收集3. 资源分析4. 关键性能指

从入门到精通详解LangChain加载HTML内容的全攻略

《从入门到精通详解LangChain加载HTML内容的全攻略》这篇文章主要为大家详细介绍了如何用LangChain优雅地处理HTML内容,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录引言:当大语言模型遇见html一、HTML加载器为什么需要专门的HTML加载器核心加载器对比表二

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

前端如何通过nginx访问本地端口

《前端如何通过nginx访问本地端口》:本文主要介绍前端如何通过nginx访问本地端口的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、nginx安装1、下载(1)下载地址(2)系统选择(3)版本选择2、安装部署(1)解压(2)配置文件修改(3)启动(4)

HTML中meta标签的常见使用案例(示例详解)

《HTML中meta标签的常见使用案例(示例详解)》HTMLmeta标签用于提供文档元数据,涵盖字符编码、SEO优化、社交媒体集成、移动设备适配、浏览器控制及安全隐私设置,优化页面显示与搜索引擎索引... 目录html中meta标签的常见使用案例一、基础功能二、搜索引擎优化(seo)三、社交媒体集成四、移动

HTML input 标签示例详解

《HTMLinput标签示例详解》input标签主要用于接收用户的输入,随type属性值的不同,变换其具体功能,本文通过实例图文并茂的形式给大家介绍HTMLinput标签,感兴趣的朋友一... 目录通用属性输入框单行文本输入框 text密码输入框 password数字输入框 number电子邮件输入编程框

HTML img标签和超链接标签详细介绍

《HTMLimg标签和超链接标签详细介绍》:本文主要介绍了HTML中img标签的使用,包括src属性(指定图片路径)、相对/绝对路径区别、alt替代文本、title提示、宽高控制及边框设置等,详细内容请阅读本文,希望能对你有所帮助... 目录img 标签src 属性alt 属性title 属性width/h

CSS3打造的现代交互式登录界面详细实现过程

《CSS3打造的现代交互式登录界面详细实现过程》本文介绍CSS3和jQuery在登录界面设计中的应用,涵盖动画、选择器、自定义字体及盒模型技术,提升界面美观与交互性,同时优化性能和可访问性,感兴趣的朋... 目录1. css3用户登录界面设计概述1.1 用户界面设计的重要性1.2 CSS3的新特性与优势1.