java使用phantomJs抓取动态页面

2024-05-07 02:08

本文主要是介绍java使用phantomJs抓取动态页面,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随时随地技术实战干货,充分利用闲暇时间,请关注源代码社区公众号和技术交流群。

from:http://blog.csdn.net/kaka0930/article/details/68941932

1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/

2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。

 

3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。报错太多。但是有没有文档,因为HttpUnit是2008年出的。官网上面啥也没有。所以我也没有资料参考,就放弃了。

4. 开始使用phantomjs,发现phantomjs算是动态爬取网页的主流。当然,所谓动态爬取从来不是问题,问题是速度。直接使用webkit等浏览器内核还是比较麻烦,而且速度不理想。

 

5. 自己使用的java + phantomjs在window上面开发。放到ubuntu上面。

首先是安装,其实window版下载解压即可。但是如果你想要直接在cmd可以使用phantomjs的命令,请把bin下面的phantomjs.exe文件路径添加到path里面。此处程序不要依赖path路径。也就是直接使用绝对路径。当然绝对路径里面使用了项目的相对路径。这样是为了更好的迁移。phantomJS的使用过程就是java程序调用phantomJS调用js文件来获取指定页面,然后传回相应的内容。

先给出代码:java端

 

[java] view plain copy

  1. public class JSUtil  
  2. {  
  3.   
  4.     // 如果要更换运行环境,请注意exePath最后的phantom.exe需要更改。因为这个只能在window版本上运行。前面的路径名  
  5.     // 也需要和exePath里面的保持一致。否则无法调用  
  6.     private static String projectPath = System.getProperty("user.dir");  
  7.     private static String jsPath = projectPath + File.separator + "huicong.js";  
  8.     private static String exePath = projectPath + File.separator + "phantomjs" + File.separator + "bin" + File.separator  
  9.             + "phantomjs.exe";  
  10.   
  11.     public static void main(String[] args) throws IOException, SAXException  
  12.     {  
  13.   
  14.         // 测试调用。传入url即可  
  15.         String html = getParseredHtml2("http://huisheng99.b2b.hc360.com/");  
  16.         System.out.println("html: " + html);  
  17.     }  
  18.   
  19.     // 调用phantomjs程序,并传入js文件,并通过流拿回需要的数据。  
  20.     public static String getParseredHtml2(String url) throws IOException  
  21.     {  
  22.         Runtime rt = Runtime.getRuntime();  
  23.         Process p = rt.exec(exePath + " " + jsPath + " " + url);  
  24.         InputStream is = p.getInputStream();  
  25.         BufferedReader br = new BufferedReader(new InputStreamReader(is));  
  26.         StringBuffer sbf = new StringBuffer();  
  27.         String tmp = "";  
  28.         while ((tmp = br.readLine()) != null)  
  29.         {  
  30.             sbf.append(tmp);  
  31.         }  
  32.         String[] result = sbf.toString().split("companyServiceMod");  
  33.         String result2 = "";  
  34.         if(result.length >= 2)  
  35.         {  
  36.             result2 = result[1];  
  37.             if(result2.length() > 200)  
  38.             {  
  39.                 result2 = result2.substring(0200);  
  40.             }  
  41.         }  
  42.         //System.out.println("resut2: "+result2);  
  43.         return result2;  
  44.     }  
  45.   
  46. }   



然后是js文件,

[javascript] view plain copy

  1. var page = require('webpage').create(),  
  2.   system = require('system'),  
  3.   t, address;  
  4. //写入文件,用来测试。正式版本可以注释掉用来提高速度。  
  5. var fs = require("fs");  
  6. //读取命令行参数,也就是js文件路径。  
  7. if (system.args.length === 1) {  
  8.   console.log('Usage: loadspeed.js <some URL>');  
  9. //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止  
  10.   phantom.exit();  
  11. }  
  12. page.settings.loadImages = false;  //为了提升加载速度,不加载图片  
  13. page.settings.resourceTimeout = 10000;//超过10秒放弃加载  
  14. //此处是用来设置截图的参数。不截图没啥用  
  15. page.viewportSize = {  
  16.   width: 1280,  
  17.   height: 800  
  18. };  
  19. block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告  
  20. page.onResourceRequested = function(requestData, request){  
  21.     for(url in block_urls) {  
  22.         if(requestData.url.indexOf(block_urls[url]) !== -1) {  
  23.             request.abort();  
  24.             //console.log(requestData.url + " aborted");  
  25.             return;  
  26.         }  
  27.     }              
  28. }  
  29. t = Date.now();//看看加载需要多久。  
  30. address = system.args[1];  
  31. page.open(address, function(status) {  
  32.   if (status !== 'success') {  
  33.     console.log('FAIL to load the address');  
  34.   } else {  
  35.     t = Date.now() - t;  
  36. //此处原来是为了提取相应的元素。只要可以用document的,还是看可以用。但是自己的无法用document,只能在用字符分割在java里。  
  37.     //  var ua = page.evaluate(function() {  
  38.     //   return document.getElementById('companyServiceMod').innerHTML;  
  39.         
  40.     // });  
  41.     // fs.write("qq.html", ua, 'w');  
  42.    // console.log("测试qq: "+ua);    
  43. //console.log就是传输回去的内容。  
  44.     console.log('Loading time ' + t + ' msec');  
  45.     console.log(page.content);  
  46.     setTimeout(function(){ phantom.exit(); }, 6000);  
  47.   }  
  48.   phantom.exit();  
  49. });  

 

请把js文件放到java的程序里面指定的路径。二者要一直。建议就是项目的根目录下面。

此处我是放在了项目的根目录下面。文件名是huicong.js

 

6. 有一个巨大的问题,就是速度。官网解释如下:


 

 stackoverflow给出的,如果截图,10秒算是正常。可以体会一下其速度。

然后自己查了一下stackoverflow,找到了一个很好的回答。

http://stackoverflow.com/questions/42703760/phantomjs-open-too-slow

表示感谢。具体就是三点:

6.1. 换个好点的电脑。

6.2. 不加载图片。参考上面的js文件。

6.3. 屏蔽相关广告等。参考上面的js文件。自己用了,成功吧时间压缩到2s。

 

7.自己是为了提取一个div里面的qq链接。但是没有找到怎么用dom来做。所以就直接传回整个page,然后手动用字符串解析。这里也许可以用各种selector。但是自己没有研究。 

 

 

 

 

1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/

2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。

 

3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。报错太多。但是有没有文档,因为HttpUnit是2008年出的。官网上面啥也没有。所以我也没有资料参考,就放弃了。

4. 开始使用phantomjs,发现phantomjs算是动态爬取网页的主流。当然,所谓动态爬取从来不是问题,问题是速度。直接使用webkit等浏览器内核还是比较麻烦,而且速度不理想。

 

5. 自己使用的java + phantomjs在window上面开发。放到ubuntu上面。

首先是安装,其实window版下载解压即可。但是如果你想要直接在cmd可以使用phantomjs的命令,请把bin下面的phantomjs.exe文件路径添加到path里面。此处程序不要依赖path路径。也就是直接使用绝对路径。当然绝对路径里面使用了项目的相对路径。这样是为了更好的迁移。phantomJS的使用过程就是java程序调用phantomJS调用js文件来获取指定页面,然后传回相应的内容。

先给出代码:java端

 

[java] view plain copy

  1. public class JSUtil  
  2. {  
  3.   
  4.     // 如果要更换运行环境,请注意exePath最后的phantom.exe需要更改。因为这个只能在window版本上运行。前面的路径名  
  5.     // 也需要和exePath里面的保持一致。否则无法调用  
  6.     private static String projectPath = System.getProperty("user.dir");  
  7.     private static String jsPath = projectPath + File.separator + "huicong.js";  
  8.     private static String exePath = projectPath + File.separator + "phantomjs" + File.separator + "bin" + File.separator  
  9.             + "phantomjs.exe";  
  10.   
  11.     public static void main(String[] args) throws IOException, SAXException  
  12.     {  
  13.   
  14.         // 测试调用。传入url即可  
  15.         String html = getParseredHtml2("http://huisheng99.b2b.hc360.com/");  
  16.         System.out.println("html: " + html);  
  17.     }  
  18.   
  19.     // 调用phantomjs程序,并传入js文件,并通过流拿回需要的数据。  
  20.     public static String getParseredHtml2(String url) throws IOException  
  21.     {  
  22.         Runtime rt = Runtime.getRuntime();  
  23.         Process p = rt.exec(exePath + " " + jsPath + " " + url);  
  24.         InputStream is = p.getInputStream();  
  25.         BufferedReader br = new BufferedReader(new InputStreamReader(is));  
  26.         StringBuffer sbf = new StringBuffer();  
  27.         String tmp = "";  
  28.         while ((tmp = br.readLine()) != null)  
  29.         {  
  30.             sbf.append(tmp);  
  31.         }  
  32.         String[] result = sbf.toString().split("companyServiceMod");  
  33.         String result2 = "";  
  34.         if(result.length >= 2)  
  35.         {  
  36.             result2 = result[1];  
  37.             if(result2.length() > 200)  
  38.             {  
  39.                 result2 = result2.substring(0200);  
  40.             }  
  41.         }  
  42.         //System.out.println("resut2: "+result2);  
  43.         return result2;  
  44.     }  
  45.   
  46. }   



然后是js文件,

[javascript] view plain copy

  1. var page = require('webpage').create(),  
  2.   system = require('system'),  
  3.   t, address;  
  4. //写入文件,用来测试。正式版本可以注释掉用来提高速度。  
  5. var fs = require("fs");  
  6. //读取命令行参数,也就是js文件路径。  
  7. if (system.args.length === 1) {  
  8.   console.log('Usage: loadspeed.js <some URL>');  
  9. //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止  
  10.   phantom.exit();  
  11. }  
  12. page.settings.loadImages = false;  //为了提升加载速度,不加载图片  
  13. page.settings.resourceTimeout = 10000;//超过10秒放弃加载  
  14. //此处是用来设置截图的参数。不截图没啥用  
  15. page.viewportSize = {  
  16.   width: 1280,  
  17.   height: 800  
  18. };  
  19. block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告  
  20. page.onResourceRequested = function(requestData, request){  
  21.     for(url in block_urls) {  
  22.         if(requestData.url.indexOf(block_urls[url]) !== -1) {  
  23.             request.abort();  
  24.             //console.log(requestData.url + " aborted");  
  25.             return;  
  26.         }  
  27.     }              
  28. }  
  29. t = Date.now();//看看加载需要多久。  
  30. address = system.args[1];  
  31. page.open(address, function(status) {  
  32.   if (status !== 'success') {  
  33.     console.log('FAIL to load the address');  
  34.   } else {  
  35.     t = Date.now() - t;  
  36. //此处原来是为了提取相应的元素。只要可以用document的,还是看可以用。但是自己的无法用document,只能在用字符分割在java里。  
  37.     //  var ua = page.evaluate(function() {  
  38.     //   return document.getElementById('companyServiceMod').innerHTML;  
  39.         
  40.     // });  
  41.     // fs.write("qq.html", ua, 'w');  
  42.    // console.log("测试qq: "+ua);    
  43. //console.log就是传输回去的内容。  
  44.     console.log('Loading time ' + t + ' msec');  
  45.     console.log(page.content);  
  46.     setTimeout(function(){ phantom.exit(); }, 6000);  
  47.   }  
  48.   phantom.exit();  
  49. });  

 

请把js文件放到java的程序里面指定的路径。二者要一直。建议就是项目的根目录下面。

此处我是放在了项目的根目录下面。文件名是huicong.js

 

6. 有一个巨大的问题,就是速度。官网解释如下:


 

 stackoverflow给出的,如果截图,10秒算是正常。可以体会一下其速度。

然后自己查了一下stackoverflow,找到了一个很好的回答。

http://stackoverflow.com/questions/42703760/phantomjs-open-too-slow

表示感谢。具体就是三点:

6.1. 换个好点的电脑。

6.2. 不加载图片。参考上面的js文件。

6.3. 屏蔽相关广告等。参考上面的js文件。自己用了,成功吧时间压缩到2s。

 

7.自己是为了提取一个div里面的qq链接。但是没有找到怎么用dom来做。所以就直接传回整个page,然后手动用字符串解析。这里也许可以用各种selector。但是自己没有研究。 

 

这篇关于java使用phantomJs抓取动态页面的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/966030

相关文章

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

Windows下C++使用SQLitede的操作过程

《Windows下C++使用SQLitede的操作过程》本文介绍了Windows下C++使用SQLite的安装配置、CppSQLite库封装优势、核心功能(如数据库连接、事务管理)、跨平台支持及性能优... 目录Windows下C++使用SQLite1、安装2、代码示例CppSQLite:C++轻松操作SQ

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Java对异常的认识与异常的处理小结

《Java对异常的认识与异常的处理小结》Java程序在运行时可能出现的错误或非正常情况称为异常,下面给大家介绍Java对异常的认识与异常的处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参... 目录一、认识异常与异常类型。二、异常的处理三、总结 一、认识异常与异常类型。(1)简单定义-什么是

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关