java使用phantomJs抓取动态页面

2024-05-07 02:08

本文主要是介绍java使用phantomJs抓取动态页面,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随时随地技术实战干货,充分利用闲暇时间,请关注源代码社区公众号和技术交流群。

from:http://blog.csdn.net/kaka0930/article/details/68941932

1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/

2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。

 

3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。报错太多。但是有没有文档,因为HttpUnit是2008年出的。官网上面啥也没有。所以我也没有资料参考,就放弃了。

4. 开始使用phantomjs,发现phantomjs算是动态爬取网页的主流。当然,所谓动态爬取从来不是问题,问题是速度。直接使用webkit等浏览器内核还是比较麻烦,而且速度不理想。

 

5. 自己使用的java + phantomjs在window上面开发。放到ubuntu上面。

首先是安装,其实window版下载解压即可。但是如果你想要直接在cmd可以使用phantomjs的命令,请把bin下面的phantomjs.exe文件路径添加到path里面。此处程序不要依赖path路径。也就是直接使用绝对路径。当然绝对路径里面使用了项目的相对路径。这样是为了更好的迁移。phantomJS的使用过程就是java程序调用phantomJS调用js文件来获取指定页面,然后传回相应的内容。

先给出代码:java端

 

[java] view plain copy

  1. public class JSUtil  
  2. {  
  3.   
  4.     // 如果要更换运行环境,请注意exePath最后的phantom.exe需要更改。因为这个只能在window版本上运行。前面的路径名  
  5.     // 也需要和exePath里面的保持一致。否则无法调用  
  6.     private static String projectPath = System.getProperty("user.dir");  
  7.     private static String jsPath = projectPath + File.separator + "huicong.js";  
  8.     private static String exePath = projectPath + File.separator + "phantomjs" + File.separator + "bin" + File.separator  
  9.             + "phantomjs.exe";  
  10.   
  11.     public static void main(String[] args) throws IOException, SAXException  
  12.     {  
  13.   
  14.         // 测试调用。传入url即可  
  15.         String html = getParseredHtml2("http://huisheng99.b2b.hc360.com/");  
  16.         System.out.println("html: " + html);  
  17.     }  
  18.   
  19.     // 调用phantomjs程序,并传入js文件,并通过流拿回需要的数据。  
  20.     public static String getParseredHtml2(String url) throws IOException  
  21.     {  
  22.         Runtime rt = Runtime.getRuntime();  
  23.         Process p = rt.exec(exePath + " " + jsPath + " " + url);  
  24.         InputStream is = p.getInputStream();  
  25.         BufferedReader br = new BufferedReader(new InputStreamReader(is));  
  26.         StringBuffer sbf = new StringBuffer();  
  27.         String tmp = "";  
  28.         while ((tmp = br.readLine()) != null)  
  29.         {  
  30.             sbf.append(tmp);  
  31.         }  
  32.         String[] result = sbf.toString().split("companyServiceMod");  
  33.         String result2 = "";  
  34.         if(result.length >= 2)  
  35.         {  
  36.             result2 = result[1];  
  37.             if(result2.length() > 200)  
  38.             {  
  39.                 result2 = result2.substring(0200);  
  40.             }  
  41.         }  
  42.         //System.out.println("resut2: "+result2);  
  43.         return result2;  
  44.     }  
  45.   
  46. }   



然后是js文件,

[javascript] view plain copy

  1. var page = require('webpage').create(),  
  2.   system = require('system'),  
  3.   t, address;  
  4. //写入文件,用来测试。正式版本可以注释掉用来提高速度。  
  5. var fs = require("fs");  
  6. //读取命令行参数,也就是js文件路径。  
  7. if (system.args.length === 1) {  
  8.   console.log('Usage: loadspeed.js <some URL>');  
  9. //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止  
  10.   phantom.exit();  
  11. }  
  12. page.settings.loadImages = false;  //为了提升加载速度,不加载图片  
  13. page.settings.resourceTimeout = 10000;//超过10秒放弃加载  
  14. //此处是用来设置截图的参数。不截图没啥用  
  15. page.viewportSize = {  
  16.   width: 1280,  
  17.   height: 800  
  18. };  
  19. block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告  
  20. page.onResourceRequested = function(requestData, request){  
  21.     for(url in block_urls) {  
  22.         if(requestData.url.indexOf(block_urls[url]) !== -1) {  
  23.             request.abort();  
  24.             //console.log(requestData.url + " aborted");  
  25.             return;  
  26.         }  
  27.     }              
  28. }  
  29. t = Date.now();//看看加载需要多久。  
  30. address = system.args[1];  
  31. page.open(address, function(status) {  
  32.   if (status !== 'success') {  
  33.     console.log('FAIL to load the address');  
  34.   } else {  
  35.     t = Date.now() - t;  
  36. //此处原来是为了提取相应的元素。只要可以用document的,还是看可以用。但是自己的无法用document,只能在用字符分割在java里。  
  37.     //  var ua = page.evaluate(function() {  
  38.     //   return document.getElementById('companyServiceMod').innerHTML;  
  39.         
  40.     // });  
  41.     // fs.write("qq.html", ua, 'w');  
  42.    // console.log("测试qq: "+ua);    
  43. //console.log就是传输回去的内容。  
  44.     console.log('Loading time ' + t + ' msec');  
  45.     console.log(page.content);  
  46.     setTimeout(function(){ phantom.exit(); }, 6000);  
  47.   }  
  48.   phantom.exit();  
  49. });  

 

请把js文件放到java的程序里面指定的路径。二者要一直。建议就是项目的根目录下面。

此处我是放在了项目的根目录下面。文件名是huicong.js

 

6. 有一个巨大的问题,就是速度。官网解释如下:


 

 stackoverflow给出的,如果截图,10秒算是正常。可以体会一下其速度。

然后自己查了一下stackoverflow,找到了一个很好的回答。

http://stackoverflow.com/questions/42703760/phantomjs-open-too-slow

表示感谢。具体就是三点:

6.1. 换个好点的电脑。

6.2. 不加载图片。参考上面的js文件。

6.3. 屏蔽相关广告等。参考上面的js文件。自己用了,成功吧时间压缩到2s。

 

7.自己是为了提取一个div里面的qq链接。但是没有找到怎么用dom来做。所以就直接传回整个page,然后手动用字符串解析。这里也许可以用各种selector。但是自己没有研究。 

 

 

 

 

1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/

2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。

 

3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。报错太多。但是有没有文档,因为HttpUnit是2008年出的。官网上面啥也没有。所以我也没有资料参考,就放弃了。

4. 开始使用phantomjs,发现phantomjs算是动态爬取网页的主流。当然,所谓动态爬取从来不是问题,问题是速度。直接使用webkit等浏览器内核还是比较麻烦,而且速度不理想。

 

5. 自己使用的java + phantomjs在window上面开发。放到ubuntu上面。

首先是安装,其实window版下载解压即可。但是如果你想要直接在cmd可以使用phantomjs的命令,请把bin下面的phantomjs.exe文件路径添加到path里面。此处程序不要依赖path路径。也就是直接使用绝对路径。当然绝对路径里面使用了项目的相对路径。这样是为了更好的迁移。phantomJS的使用过程就是java程序调用phantomJS调用js文件来获取指定页面,然后传回相应的内容。

先给出代码:java端

 

[java] view plain copy

  1. public class JSUtil  
  2. {  
  3.   
  4.     // 如果要更换运行环境,请注意exePath最后的phantom.exe需要更改。因为这个只能在window版本上运行。前面的路径名  
  5.     // 也需要和exePath里面的保持一致。否则无法调用  
  6.     private static String projectPath = System.getProperty("user.dir");  
  7.     private static String jsPath = projectPath + File.separator + "huicong.js";  
  8.     private static String exePath = projectPath + File.separator + "phantomjs" + File.separator + "bin" + File.separator  
  9.             + "phantomjs.exe";  
  10.   
  11.     public static void main(String[] args) throws IOException, SAXException  
  12.     {  
  13.   
  14.         // 测试调用。传入url即可  
  15.         String html = getParseredHtml2("http://huisheng99.b2b.hc360.com/");  
  16.         System.out.println("html: " + html);  
  17.     }  
  18.   
  19.     // 调用phantomjs程序,并传入js文件,并通过流拿回需要的数据。  
  20.     public static String getParseredHtml2(String url) throws IOException  
  21.     {  
  22.         Runtime rt = Runtime.getRuntime();  
  23.         Process p = rt.exec(exePath + " " + jsPath + " " + url);  
  24.         InputStream is = p.getInputStream();  
  25.         BufferedReader br = new BufferedReader(new InputStreamReader(is));  
  26.         StringBuffer sbf = new StringBuffer();  
  27.         String tmp = "";  
  28.         while ((tmp = br.readLine()) != null)  
  29.         {  
  30.             sbf.append(tmp);  
  31.         }  
  32.         String[] result = sbf.toString().split("companyServiceMod");  
  33.         String result2 = "";  
  34.         if(result.length >= 2)  
  35.         {  
  36.             result2 = result[1];  
  37.             if(result2.length() > 200)  
  38.             {  
  39.                 result2 = result2.substring(0200);  
  40.             }  
  41.         }  
  42.         //System.out.println("resut2: "+result2);  
  43.         return result2;  
  44.     }  
  45.   
  46. }   



然后是js文件,

[javascript] view plain copy

  1. var page = require('webpage').create(),  
  2.   system = require('system'),  
  3.   t, address;  
  4. //写入文件,用来测试。正式版本可以注释掉用来提高速度。  
  5. var fs = require("fs");  
  6. //读取命令行参数,也就是js文件路径。  
  7. if (system.args.length === 1) {  
  8.   console.log('Usage: loadspeed.js <some URL>');  
  9. //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止  
  10.   phantom.exit();  
  11. }  
  12. page.settings.loadImages = false;  //为了提升加载速度,不加载图片  
  13. page.settings.resourceTimeout = 10000;//超过10秒放弃加载  
  14. //此处是用来设置截图的参数。不截图没啥用  
  15. page.viewportSize = {  
  16.   width: 1280,  
  17.   height: 800  
  18. };  
  19. block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告  
  20. page.onResourceRequested = function(requestData, request){  
  21.     for(url in block_urls) {  
  22.         if(requestData.url.indexOf(block_urls[url]) !== -1) {  
  23.             request.abort();  
  24.             //console.log(requestData.url + " aborted");  
  25.             return;  
  26.         }  
  27.     }              
  28. }  
  29. t = Date.now();//看看加载需要多久。  
  30. address = system.args[1];  
  31. page.open(address, function(status) {  
  32.   if (status !== 'success') {  
  33.     console.log('FAIL to load the address');  
  34.   } else {  
  35.     t = Date.now() - t;  
  36. //此处原来是为了提取相应的元素。只要可以用document的,还是看可以用。但是自己的无法用document,只能在用字符分割在java里。  
  37.     //  var ua = page.evaluate(function() {  
  38.     //   return document.getElementById('companyServiceMod').innerHTML;  
  39.         
  40.     // });  
  41.     // fs.write("qq.html", ua, 'w');  
  42.    // console.log("测试qq: "+ua);    
  43. //console.log就是传输回去的内容。  
  44.     console.log('Loading time ' + t + ' msec');  
  45.     console.log(page.content);  
  46.     setTimeout(function(){ phantom.exit(); }, 6000);  
  47.   }  
  48.   phantom.exit();  
  49. });  

 

请把js文件放到java的程序里面指定的路径。二者要一直。建议就是项目的根目录下面。

此处我是放在了项目的根目录下面。文件名是huicong.js

 

6. 有一个巨大的问题,就是速度。官网解释如下:


 

 stackoverflow给出的,如果截图,10秒算是正常。可以体会一下其速度。

然后自己查了一下stackoverflow,找到了一个很好的回答。

http://stackoverflow.com/questions/42703760/phantomjs-open-too-slow

表示感谢。具体就是三点:

6.1. 换个好点的电脑。

6.2. 不加载图片。参考上面的js文件。

6.3. 屏蔽相关广告等。参考上面的js文件。自己用了,成功吧时间压缩到2s。

 

7.自己是为了提取一个div里面的qq链接。但是没有找到怎么用dom来做。所以就直接传回整个page,然后手动用字符串解析。这里也许可以用各种selector。但是自己没有研究。 

 

这篇关于java使用phantomJs抓取动态页面的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/966030

相关文章

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

Java 实用工具类Spring 的 AnnotationUtils详解

《Java实用工具类Spring的AnnotationUtils详解》Spring框架提供了一个强大的注解工具类org.springframework.core.annotation.Annot... 目录前言一、AnnotationUtils 的常用方法二、常见应用场景三、与 JDK 原生注解 API 的

Java controller接口出入参时间序列化转换操作方法(两种)

《Javacontroller接口出入参时间序列化转换操作方法(两种)》:本文主要介绍Javacontroller接口出入参时间序列化转换操作方法,本文给大家列举两种简单方法,感兴趣的朋友一起看... 目录方式一、使用注解方式二、统一配置场景:在controller编写的接口,在前后端交互过程中一般都会涉及

Java中的StringBuilder之如何高效构建字符串

《Java中的StringBuilder之如何高效构建字符串》本文将深入浅出地介绍StringBuilder的使用方法、性能优势以及相关字符串处理技术,结合代码示例帮助读者更好地理解和应用,希望对大家... 目录关键点什么是 StringBuilder?为什么需要 StringBuilder?如何使用 St

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

redis中使用lua脚本的原理与基本使用详解

《redis中使用lua脚本的原理与基本使用详解》在Redis中使用Lua脚本可以实现原子性操作、减少网络开销以及提高执行效率,下面小编就来和大家详细介绍一下在redis中使用lua脚本的原理... 目录Redis 执行 Lua 脚本的原理基本使用方法使用EVAL命令执行 Lua 脚本使用EVALSHA命令

Java并发编程之如何优雅关闭钩子Shutdown Hook

《Java并发编程之如何优雅关闭钩子ShutdownHook》这篇文章主要为大家详细介绍了Java如何实现优雅关闭钩子ShutdownHook,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 目录关闭钩子简介关闭钩子应用场景数据库连接实战演示使用关闭钩子的注意事项开源框架中的关闭钩子机制1.

Maven中引入 springboot 相关依赖的方式(最新推荐)

《Maven中引入springboot相关依赖的方式(最新推荐)》:本文主要介绍Maven中引入springboot相关依赖的方式(最新推荐),本文给大家介绍的非常详细,对大家的学习或工作具有... 目录Maven中引入 springboot 相关依赖的方式1. 不使用版本管理(不推荐)2、使用版本管理(推

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows