java使用phantomJs抓取动态页面

2024-05-07 02:08

本文主要是介绍java使用phantomJs抓取动态页面,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随时随地技术实战干货,充分利用闲暇时间,请关注源代码社区公众号和技术交流群。

from:http://blog.csdn.net/kaka0930/article/details/68941932

1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/

2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。

 

3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。报错太多。但是有没有文档,因为HttpUnit是2008年出的。官网上面啥也没有。所以我也没有资料参考,就放弃了。

4. 开始使用phantomjs,发现phantomjs算是动态爬取网页的主流。当然,所谓动态爬取从来不是问题,问题是速度。直接使用webkit等浏览器内核还是比较麻烦,而且速度不理想。

 

5. 自己使用的java + phantomjs在window上面开发。放到ubuntu上面。

首先是安装,其实window版下载解压即可。但是如果你想要直接在cmd可以使用phantomjs的命令,请把bin下面的phantomjs.exe文件路径添加到path里面。此处程序不要依赖path路径。也就是直接使用绝对路径。当然绝对路径里面使用了项目的相对路径。这样是为了更好的迁移。phantomJS的使用过程就是java程序调用phantomJS调用js文件来获取指定页面,然后传回相应的内容。

先给出代码:java端

 

[java] view plain copy

  1. public class JSUtil  
  2. {  
  3.   
  4.     // 如果要更换运行环境,请注意exePath最后的phantom.exe需要更改。因为这个只能在window版本上运行。前面的路径名  
  5.     // 也需要和exePath里面的保持一致。否则无法调用  
  6.     private static String projectPath = System.getProperty("user.dir");  
  7.     private static String jsPath = projectPath + File.separator + "huicong.js";  
  8.     private static String exePath = projectPath + File.separator + "phantomjs" + File.separator + "bin" + File.separator  
  9.             + "phantomjs.exe";  
  10.   
  11.     public static void main(String[] args) throws IOException, SAXException  
  12.     {  
  13.   
  14.         // 测试调用。传入url即可  
  15.         String html = getParseredHtml2("http://huisheng99.b2b.hc360.com/");  
  16.         System.out.println("html: " + html);  
  17.     }  
  18.   
  19.     // 调用phantomjs程序,并传入js文件,并通过流拿回需要的数据。  
  20.     public static String getParseredHtml2(String url) throws IOException  
  21.     {  
  22.         Runtime rt = Runtime.getRuntime();  
  23.         Process p = rt.exec(exePath + " " + jsPath + " " + url);  
  24.         InputStream is = p.getInputStream();  
  25.         BufferedReader br = new BufferedReader(new InputStreamReader(is));  
  26.         StringBuffer sbf = new StringBuffer();  
  27.         String tmp = "";  
  28.         while ((tmp = br.readLine()) != null)  
  29.         {  
  30.             sbf.append(tmp);  
  31.         }  
  32.         String[] result = sbf.toString().split("companyServiceMod");  
  33.         String result2 = "";  
  34.         if(result.length >= 2)  
  35.         {  
  36.             result2 = result[1];  
  37.             if(result2.length() > 200)  
  38.             {  
  39.                 result2 = result2.substring(0200);  
  40.             }  
  41.         }  
  42.         //System.out.println("resut2: "+result2);  
  43.         return result2;  
  44.     }  
  45.   
  46. }   



然后是js文件,

[javascript] view plain copy

  1. var page = require('webpage').create(),  
  2.   system = require('system'),  
  3.   t, address;  
  4. //写入文件,用来测试。正式版本可以注释掉用来提高速度。  
  5. var fs = require("fs");  
  6. //读取命令行参数,也就是js文件路径。  
  7. if (system.args.length === 1) {  
  8.   console.log('Usage: loadspeed.js <some URL>');  
  9. //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止  
  10.   phantom.exit();  
  11. }  
  12. page.settings.loadImages = false;  //为了提升加载速度,不加载图片  
  13. page.settings.resourceTimeout = 10000;//超过10秒放弃加载  
  14. //此处是用来设置截图的参数。不截图没啥用  
  15. page.viewportSize = {  
  16.   width: 1280,  
  17.   height: 800  
  18. };  
  19. block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告  
  20. page.onResourceRequested = function(requestData, request){  
  21.     for(url in block_urls) {  
  22.         if(requestData.url.indexOf(block_urls[url]) !== -1) {  
  23.             request.abort();  
  24.             //console.log(requestData.url + " aborted");  
  25.             return;  
  26.         }  
  27.     }              
  28. }  
  29. t = Date.now();//看看加载需要多久。  
  30. address = system.args[1];  
  31. page.open(address, function(status) {  
  32.   if (status !== 'success') {  
  33.     console.log('FAIL to load the address');  
  34.   } else {  
  35.     t = Date.now() - t;  
  36. //此处原来是为了提取相应的元素。只要可以用document的,还是看可以用。但是自己的无法用document,只能在用字符分割在java里。  
  37.     //  var ua = page.evaluate(function() {  
  38.     //   return document.getElementById('companyServiceMod').innerHTML;  
  39.         
  40.     // });  
  41.     // fs.write("qq.html", ua, 'w');  
  42.    // console.log("测试qq: "+ua);    
  43. //console.log就是传输回去的内容。  
  44.     console.log('Loading time ' + t + ' msec');  
  45.     console.log(page.content);  
  46.     setTimeout(function(){ phantom.exit(); }, 6000);  
  47.   }  
  48.   phantom.exit();  
  49. });  

 

请把js文件放到java的程序里面指定的路径。二者要一直。建议就是项目的根目录下面。

此处我是放在了项目的根目录下面。文件名是huicong.js

 

6. 有一个巨大的问题,就是速度。官网解释如下:


 

 stackoverflow给出的,如果截图,10秒算是正常。可以体会一下其速度。

然后自己查了一下stackoverflow,找到了一个很好的回答。

http://stackoverflow.com/questions/42703760/phantomjs-open-too-slow

表示感谢。具体就是三点:

6.1. 换个好点的电脑。

6.2. 不加载图片。参考上面的js文件。

6.3. 屏蔽相关广告等。参考上面的js文件。自己用了,成功吧时间压缩到2s。

 

7.自己是为了提取一个div里面的qq链接。但是没有找到怎么用dom来做。所以就直接传回整个page,然后手动用字符串解析。这里也许可以用各种selector。但是自己没有研究。 

 

 

 

 

1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/

2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。

 

3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。报错太多。但是有没有文档,因为HttpUnit是2008年出的。官网上面啥也没有。所以我也没有资料参考,就放弃了。

4. 开始使用phantomjs,发现phantomjs算是动态爬取网页的主流。当然,所谓动态爬取从来不是问题,问题是速度。直接使用webkit等浏览器内核还是比较麻烦,而且速度不理想。

 

5. 自己使用的java + phantomjs在window上面开发。放到ubuntu上面。

首先是安装,其实window版下载解压即可。但是如果你想要直接在cmd可以使用phantomjs的命令,请把bin下面的phantomjs.exe文件路径添加到path里面。此处程序不要依赖path路径。也就是直接使用绝对路径。当然绝对路径里面使用了项目的相对路径。这样是为了更好的迁移。phantomJS的使用过程就是java程序调用phantomJS调用js文件来获取指定页面,然后传回相应的内容。

先给出代码:java端

 

[java] view plain copy

  1. public class JSUtil  
  2. {  
  3.   
  4.     // 如果要更换运行环境,请注意exePath最后的phantom.exe需要更改。因为这个只能在window版本上运行。前面的路径名  
  5.     // 也需要和exePath里面的保持一致。否则无法调用  
  6.     private static String projectPath = System.getProperty("user.dir");  
  7.     private static String jsPath = projectPath + File.separator + "huicong.js";  
  8.     private static String exePath = projectPath + File.separator + "phantomjs" + File.separator + "bin" + File.separator  
  9.             + "phantomjs.exe";  
  10.   
  11.     public static void main(String[] args) throws IOException, SAXException  
  12.     {  
  13.   
  14.         // 测试调用。传入url即可  
  15.         String html = getParseredHtml2("http://huisheng99.b2b.hc360.com/");  
  16.         System.out.println("html: " + html);  
  17.     }  
  18.   
  19.     // 调用phantomjs程序,并传入js文件,并通过流拿回需要的数据。  
  20.     public static String getParseredHtml2(String url) throws IOException  
  21.     {  
  22.         Runtime rt = Runtime.getRuntime();  
  23.         Process p = rt.exec(exePath + " " + jsPath + " " + url);  
  24.         InputStream is = p.getInputStream();  
  25.         BufferedReader br = new BufferedReader(new InputStreamReader(is));  
  26.         StringBuffer sbf = new StringBuffer();  
  27.         String tmp = "";  
  28.         while ((tmp = br.readLine()) != null)  
  29.         {  
  30.             sbf.append(tmp);  
  31.         }  
  32.         String[] result = sbf.toString().split("companyServiceMod");  
  33.         String result2 = "";  
  34.         if(result.length >= 2)  
  35.         {  
  36.             result2 = result[1];  
  37.             if(result2.length() > 200)  
  38.             {  
  39.                 result2 = result2.substring(0200);  
  40.             }  
  41.         }  
  42.         //System.out.println("resut2: "+result2);  
  43.         return result2;  
  44.     }  
  45.   
  46. }   



然后是js文件,

[javascript] view plain copy

  1. var page = require('webpage').create(),  
  2.   system = require('system'),  
  3.   t, address;  
  4. //写入文件,用来测试。正式版本可以注释掉用来提高速度。  
  5. var fs = require("fs");  
  6. //读取命令行参数,也就是js文件路径。  
  7. if (system.args.length === 1) {  
  8.   console.log('Usage: loadspeed.js <some URL>');  
  9. //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止  
  10.   phantom.exit();  
  11. }  
  12. page.settings.loadImages = false;  //为了提升加载速度,不加载图片  
  13. page.settings.resourceTimeout = 10000;//超过10秒放弃加载  
  14. //此处是用来设置截图的参数。不截图没啥用  
  15. page.viewportSize = {  
  16.   width: 1280,  
  17.   height: 800  
  18. };  
  19. block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告  
  20. page.onResourceRequested = function(requestData, request){  
  21.     for(url in block_urls) {  
  22.         if(requestData.url.indexOf(block_urls[url]) !== -1) {  
  23.             request.abort();  
  24.             //console.log(requestData.url + " aborted");  
  25.             return;  
  26.         }  
  27.     }              
  28. }  
  29. t = Date.now();//看看加载需要多久。  
  30. address = system.args[1];  
  31. page.open(address, function(status) {  
  32.   if (status !== 'success') {  
  33.     console.log('FAIL to load the address');  
  34.   } else {  
  35.     t = Date.now() - t;  
  36. //此处原来是为了提取相应的元素。只要可以用document的,还是看可以用。但是自己的无法用document,只能在用字符分割在java里。  
  37.     //  var ua = page.evaluate(function() {  
  38.     //   return document.getElementById('companyServiceMod').innerHTML;  
  39.         
  40.     // });  
  41.     // fs.write("qq.html", ua, 'w');  
  42.    // console.log("测试qq: "+ua);    
  43. //console.log就是传输回去的内容。  
  44.     console.log('Loading time ' + t + ' msec');  
  45.     console.log(page.content);  
  46.     setTimeout(function(){ phantom.exit(); }, 6000);  
  47.   }  
  48.   phantom.exit();  
  49. });  

 

请把js文件放到java的程序里面指定的路径。二者要一直。建议就是项目的根目录下面。

此处我是放在了项目的根目录下面。文件名是huicong.js

 

6. 有一个巨大的问题,就是速度。官网解释如下:


 

 stackoverflow给出的,如果截图,10秒算是正常。可以体会一下其速度。

然后自己查了一下stackoverflow,找到了一个很好的回答。

http://stackoverflow.com/questions/42703760/phantomjs-open-too-slow

表示感谢。具体就是三点:

6.1. 换个好点的电脑。

6.2. 不加载图片。参考上面的js文件。

6.3. 屏蔽相关广告等。参考上面的js文件。自己用了,成功吧时间压缩到2s。

 

7.自己是为了提取一个div里面的qq链接。但是没有找到怎么用dom来做。所以就直接传回整个page,然后手动用字符串解析。这里也许可以用各种selector。但是自己没有研究。 

 

这篇关于java使用phantomJs抓取动态页面的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/966030

相关文章

springboot集成easypoi导出word换行处理过程

《springboot集成easypoi导出word换行处理过程》SpringBoot集成Easypoi导出Word时,换行符n失效显示为空格,解决方法包括生成段落或替换模板中n为回车,同时需确... 目录项目场景问题描述解决方案第一种:生成段落的方式第二种:替换模板的情况,换行符替换成回车总结项目场景s

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

SpringBoot中@Value注入静态变量方式

《SpringBoot中@Value注入静态变量方式》SpringBoot中静态变量无法直接用@Value注入,需通过setter方法,@Value(${})从属性文件获取值,@Value(#{})用... 目录项目场景解决方案注解说明1、@Value("${}")使用示例2、@Value("#{}"php

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

springboot中使用okhttp3的小结

《springboot中使用okhttp3的小结》OkHttp3是一个JavaHTTP客户端,可以处理各种请求类型,比如GET、POST、PUT等,并且支持高效的HTTP连接池、请求和响应缓存、以及异... 在 Spring Boot 项目中使用 OkHttp3 进行 HTTP 请求是一个高效且流行的方式。