java学习-GET方式抓取网页(UrlConnection和HttpClient) 参考

2024-08-30 08:58

本文主要是介绍java学习-GET方式抓取网页(UrlConnection和HttpClient) 参考,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

URL:http://www.cnblogs.com/gne-hwz/p/6952312.html


抓取网页其实就是模拟客户端(PC端,手机端。。。)发送请求,获得响应数据documentation,解析对应数据的过程。---自己理解,错误请告知

一般常用请求方式有GET,POST,HEAD三种

GET请求的数据是作为url的一部分,对于GET请求来说,附带数据长度有限制,数据安全性低

POST请求,数据作为标准数据传输给服务器,数据长度没有限制,数据通过加密传输,安全性高

HEAD类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头

闲话少说。

通过GET请求获取网页

UrlConnection下载网页通过InputStream读取数据,通过FileOutPutStream将数据写入文件

复制代码
public class DownloadHtml {/*** 方法说明:用于下载HTML页面*@param SrcPath  下载目标页面的URL*@param filePath 下载得到的HTML页面存放本地目录*@param fileName  下载页面的名字*/public static void downloadHtmlByNet(String SrcPath,String filePath,String fileName){try{URL url = new URL(SrcPath);URLConnection conn = url.openConnection();//设置超时间为3秒conn.setConnectTimeout(3*1000);//防止屏蔽程序抓取而返回403错误conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");//输出流InputStream str = conn.getInputStream();//控制流的大小为1kbyte[] bs = new byte[1024];//读取到的长度int len = 0;//是否需要创建文件夹File saveDir = new File(filePath);  if(!saveDir.exists()){  saveDir.mkdir();  }  File file = new File(saveDir+File.separator+fileName);   //实例输出一个对象FileOutputStream out = new FileOutputStream(file);//循环判断,如果读取的个数b为空了,则is.read()方法返回-1,具体请参考InputStream的read();while ((len = str.read(bs)) != -1) {//将对象写入到对应的文件中out.write(bs, 0, len);   }//刷新流
            out.flush();//关闭流
            out.close();str.close();        System.out.println("下载成功");}catch (Exception e) {e.printStackTrace();}}//测试public static void main(String[] args) {//下载网页
    url是要下载的指定网页,filepath存放文件的目录如
d:/resource/html/ ,filename指文件名如"下载的网页.html"

downloadHtmlByNet(url,filepath,filename);} }
复制代码

HttpClient是Apache Jakarta Common 下的子项目。提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包

复制代码
public static void downloadHtmlByNet(String SrcPath,String filePath,String fileName){DefaultHttpClient httpClient=new DefaultHttpClient();//初始化httpclientBasicHttpParams httpParams=new BasicHttpParams();//初始化参数
//模拟浏览器访问防止屏蔽程序抓取而返回403错误
user_agent="Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36
     

user_agent="Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)"
httpParams.setParameter("http.useragent", user_agent);httpClient.setParams(httpParams);try {HttpGet httpGet=new HttpGet(SrcPath);HttpContext httpContext=new BasicHttpContext();HttpResponse httpResponse=httpClient.execute(httpGet,httpContext);HttpEntity entity=httpResponse.getEntity();if(entity!=null){writeToFile(entity,filePath,fileName);//将entity内容输出到文件}} catch (ClientProtocolException e) {// TODO Auto-generated catch block
            e.printStackTrace();} catch (IOException e) {// TODO Auto-generated catch block
            e.printStackTrace();}finally {httpClient.getConnectionManager().shutdown();}}
复制代码
复制代码
private static void writeToFile(HttpEntity entity, String filepath, String filename) {//输出流try{InputStream str = entity.getContent();//控制流的大小为1kbyte[] bs = new byte[1024];//读取到的长度int len = 0;//是否需要创建文件夹File saveDir = new File(filePath);  if(!saveDir.exists()){saveDir.mkdir();  }File file = new File(saveDir+File.separator+fileName);//实例输出一个对象FileOutputStream out = new FileOutputStream(file);//循环判断,如果读取的个数b为空了,则is.read()方法返回-1,具体请参考InputStream的read();while ((len = str.read(bs)) != -1) {//将对象写入到对应的文件中out.write(bs, 0, len);   }//刷新流
        out.flush();//关闭流
        out.close();str.close();        System.out.println("下载成功");}catch(Exception e){e.printStackTrace();}}
复制代码



这篇关于java学习-GET方式抓取网页(UrlConnection和HttpClient) 参考的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1120362

相关文章

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

C++中零拷贝的多种实现方式

《C++中零拷贝的多种实现方式》本文主要介绍了C++中零拷贝的实现示例,旨在在减少数据在内存中的不必要复制,从而提高程序性能、降低内存使用并减少CPU消耗,零拷贝技术通过多种方式实现,下面就来了解一下... 目录一、C++中零拷贝技术的核心概念二、std::string_view 简介三、std::stri

Java对异常的认识与异常的处理小结

《Java对异常的认识与异常的处理小结》Java程序在运行时可能出现的错误或非正常情况称为异常,下面给大家介绍Java对异常的认识与异常的处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参... 目录一、认识异常与异常类型。二、异常的处理三、总结 一、认识异常与异常类型。(1)简单定义-什么是

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.

python判断文件是否存在常用的几种方式

《python判断文件是否存在常用的几种方式》在Python中我们在读写文件之前,首先要做的事情就是判断文件是否存在,否则很容易发生错误的情况,:本文主要介绍python判断文件是否存在常用的几种... 目录1. 使用 os.path.exists()2. 使用 os.path.isfile()3. 使用

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

java中long的一些常见用法

《java中long的一些常见用法》在Java中,long是一种基本数据类型,用于表示长整型数值,接下来通过本文给大家介绍java中long的一些常见用法,感兴趣的朋友一起看看吧... 在Java中,long是一种基本数据类型,用于表示长整型数值。它的取值范围比int更大,从-922337203685477

java Long 与long之间的转换流程

《javaLong与long之间的转换流程》Long类提供了一些方法,用于在long和其他数据类型(如String)之间进行转换,本文将详细介绍如何在Java中实现Long和long之间的转换,感... 目录概述流程步骤1:将long转换为Long对象步骤2:将Longhttp://www.cppcns.c