java 简单网络爬虫实现

2023-12-25 12:58

本文主要是介绍java 简单网络爬虫实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文

今天在群里有人讨论到了网络爬虫原理,在此,我就写了一个简单的网络爬虫,由于时间仓促,存在很多不规范,望大家担待,但基本原理,代码中已经体现了。愿大家学习开心。

复制内容到剪贴板
代码:
import java.io.BufferedInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpCookie;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.Socket;
import java.net.URL;
import java.net.URLConnection;
import java.net.UnknownHostException;
import java.util.ArrayList;
import java.util.List;


public class SocketScan {
        
        private static final int MAX_SIZE = 5;
        public static List<String> httpContextList = new ArrayList<String>();
        
        public static void main(String[] args) {
                // 得到网站URL,并读取出来
                String httpContext = searchHttpContexts("http://10.125.2.36:8080/FileUpload/test.html");

                System.out.println("httpContext size: "+httpContextList.size());
                
                for (String string : httpContextList) {
                        System.out.println(string);
                        System.out.println();
                        System.out.println("分隔符==============================================================================");
                        System.out.println();
                }
                
        }

        
        private static List<String> GetURLByHttpContext(String httpContext) {
                List<String> urlList = new ArrayList<String>();
                String mark = "href=\"";
                int len = mark.length();
                int start = 0;
                int end = 0 ;
                while((start = httpContext.indexOf(mark,start))!=-1){
                        start = start + len;
                        end = httpContext.indexOf("\"",start);
                        urlList.add(httpContext.substring(start,end));
                }
                return urlList;
        }
        
        
        private synchronized static String searchHttpContexts(String urlPath) {
                try {
                        if(httpContextList.size() > MAX_SIZE){
                                return null;
                        }
                        String sb = getHttpContext(urlPath);
                        httpContextList.add(sb);
                        
                        List<String> urlList = GetURLByHttpContext(sb.toString());
                        if(urlList.size() >0){
                                for (String subUrl : urlList) {
                                        String subHttpContext = searchHttpContexts(subUrl);
                                        if(httpContextList.size() > MAX_SIZE){
                                                return null;
                                        }
                                        httpContextList.add(subHttpContext);
                                }
                        }
                        return sb;
                } catch (UnknownHostException e) {
                        // TODO Auto-generated catch block
                        e.printStackTrace();
                } catch (IOException e) {
                        // TODO Auto-generated catch block
                        e.printStackTrace();
                }
                return null;
        }
        
        

        private static String getHttpContext(String urlPath)
                        throws MalformedURLException, IOException {
                URL url = new URL(urlPath);
                URLConnection conn = url.openConnection();
                BufferedInputStream input = new BufferedInputStream(conn.getInputStream());
                byte[] b = new byte[1024];
                int temp;
                StringBuilder sb = new StringBuilder();
                while ((temp = input.read(b)) != -1) {
                        String value = new String(b);
                        sb.append(value);
                }
                return sb.toString();
        }
        
        
}

这篇关于java 简单网络爬虫实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/535603

相关文章

golang版本升级如何实现

《golang版本升级如何实现》:本文主要介绍golang版本升级如何实现问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录golanwww.chinasem.cng版本升级linux上golang版本升级删除golang旧版本安装golang最新版本总结gola

java如何解压zip压缩包

《java如何解压zip压缩包》:本文主要介绍java如何解压zip压缩包问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java解压zip压缩包实例代码结果如下总结java解压zip压缩包坐在旁边的小伙伴问我怎么用 java 将服务器上的压缩文件解压出来,

SpringBoot中SM2公钥加密、私钥解密的实现示例详解

《SpringBoot中SM2公钥加密、私钥解密的实现示例详解》本文介绍了如何在SpringBoot项目中实现SM2公钥加密和私钥解密的功能,通过使用Hutool库和BouncyCastle依赖,简化... 目录一、前言1、加密信息(示例)2、加密结果(示例)二、实现代码1、yml文件配置2、创建SM2工具

Spring WebFlux 与 WebClient 使用指南及最佳实践

《SpringWebFlux与WebClient使用指南及最佳实践》WebClient是SpringWebFlux模块提供的非阻塞、响应式HTTP客户端,基于ProjectReactor实现,... 目录Spring WebFlux 与 WebClient 使用指南1. WebClient 概述2. 核心依

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

IDEA中新建/切换Git分支的实现步骤

《IDEA中新建/切换Git分支的实现步骤》本文主要介绍了IDEA中新建/切换Git分支的实现步骤,通过菜单创建新分支并选择是否切换,创建后在Git详情或右键Checkout中切换分支,感兴趣的可以了... 前提:项目已被Git托管1、点击上方栏Git->NewBrancjsh...2、输入新的分支的