phantomjs 抓取网页

2024-03-24 05:08

文章标签 抓取网页 phantomjs

本文主要是介绍phantomjs 抓取网页，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

phantomjs：我的理解就是它是一个无显示的浏览器，也就是说除了不能显示页面内容以外，浏览器能干的活儿它基本上都能干。so,最近由于实验需要，要从某电商爬一点图片，但是它又是AJAX生成的，单纯的爬取HTML的方法是行不通的，o(╯□╰)o，于是在经过一些求助后，；了解到了PHANTOMJS，鉴于网上没找到太多实例，只好自己总结下以备不时之需。另外直接查看官网上的说明文档会有很大收获滴~顺便锻炼下自己英文嘛o(╯□╰)o。下面举个栗子来具体实现：

把phantom下载解压到D盘，在目录下有phantomjs.exe文件（win7）通过js文件可以调用这个WebKit来达到需要的目的：比方说生成网页快照之类吧。我要做的是爬AJAX页面上的图片。先看js文件：命名为s.js

system = require('system')   //传递一些需要的参数给js文件address = system.args[1];//获得命令行第二个参数 ，也就是指定要加载的页面地址，接下来会用到  var page = require('webpage').create();var url = address;page.open(url, function (status) {if (status !== 'success') {console.log('Unable to post!');} else {var encodings = ["euc-jp", "sjis", "utf8", "System"];//这一步是用来测试输出的编码格式，选择合适的编码格式很重要，不然你抓取下来的页面会乱码o(╯□╰)o，给出的几个编码格式是官网上的例子，根据具体需要自己去调整。for (var i = 3; i < encodings.length; i++) {//我这里只要一种编码就OK啦phantom.outputEncoding = encodings[i];console.log(phantom.outputEncoding+page.content);//最后返回webkit加载之后的页面内容}}phantom.exit();
});

接下来就是java类的编写：

package com.mvc.rest;import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;public class GetAjaxHtml {public static String getAjaxContent(String url) throws Exception {Runtime rt = Runtime.getRuntime();Process p = rt.exec("D:/tools/phantomjs/phantomjs.exe D:/tools/phantomjs/examples/s.js " + url);InputStream is = p.getInputStream();BufferedReader br = new BufferedReader(new InputStreamReader(is));StringBuffer sbf = new StringBuffer();String tmp = "";while((tmp=br.readLine())!=null) {sbf.append(tmp + "\n");}return sbf.toString();}public static void main(String[] args) throws Exception {long start = System.currentTimeMillis();String result = getAjaxContent("http://114.111.162.220:8093/404Web/");System.out.println(result);long end = System.currentTimeMillis();System.out.println("===============耗时：" + (end - start) + "===============");}
}

到这里，就得到了所需要的AJAX完整页面的代码字符串了，接下来就可以do whatever you want啦

这篇关于phantomjs 抓取网页的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！