分享一段代码-用Java抓取冯小刚的微博

2023-11-07 17:40

本文主要是介绍分享一段代码-用Java抓取冯小刚的微博,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在前面

之前二胖分享的代码多是Python的,不少粉丝在公众号后台私信我爬虫相关的技术,二胖发现很多人在潜意识里认为Python就等于爬虫。

今天分享这段代码主要是想说一下:大家不要把爬虫和Python绑定,也不要把数据分析和Python绑定,不是只有Python才可以写爬虫,Java、PHP、Lua、Ruby,甚至C++都可以写爬虫

今天给学习Java的同学推荐一款Java爬虫框架-WebCollector,然后二胖也用这个框架实现了一个微博爬虫,大约有200多行Java代码,就当做例子给初学者入门吧。

因为文本表述比较困难,所以二胖会录制视频讲解相关环境的部署以及对代码进行讲解。

 

微信:代码和高清视频都放在文末的留言区,需要的同学自取。

废话不多说,Let's Go!

 

01

WebCollector初识

WebCollector是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取,也支持断点爬取。

二胖个人感觉WebCollector和Python的爬虫框架Scrapy有异曲同工之妙,在使用流程上差不多,下面这张图就是WebCollector的Github主页。

 

02

项目演示

二胖先给大家演示一下代码运行,由于这几天冯小刚比较火,那就抓取一下冯小刚的微博吧。抓取后的结果用Json保存放在文件中,下图就是抓取后的部分结果。

下面的视频是代码运行的例子,点开视频即可查看:

(微信公众号中视频可能不清晰,大家可以下载原视频查看,我已上传,链接在留言区)

 

 

03

环境部署

要编写代码,首先得部署环境,这里二胖录制了一个小视频教大家部署一下环境:

 

如视频中所言,这里二胖已经把环境依赖的库都打包好了,大家直接就能用,别忘记了Build Path。

 

04

爬虫简介&代码讲解

在下面的视频中,二胖给大家简单介绍一下爬虫的工作原理,然后再讲解一下这200多行代码是怎么运行的。

 

看完上面的视频,大家已经入门爬虫了,除了冯小刚的微博,你们还可以抓取自己想抓取的任何内容,比如马蓉的微博。

 

二胖有话说

二胖初学爬虫时用的就是WebCollector,因为那时候还不会Python,只会写一点Java,所以二胖是用Java入门爬虫的。

不过从使用感觉上来讲,Python稍微方便一些,和Java相比Python能用更短的代码实现相同的功能。

不过Java的性能比Python要好一些,怎么讲呢?

现在写爬虫基本都是多线程的,而Python的多线程和Java的多线程模型有些不一样,对于多核计算机,Python线程只使用了一个核,不同的用户线程一直在一个核上进行上下文切换,其他核就闲着,这是N:1的线程模型。

就像下图这张图一样:

而Java的多线程模型是真正意义上的多核模型,即每个CPU核心都在忙。

当然,这里要是不明白也没什么问题,大家可以持续关注二胖,在之后的日子里,二胖会慢慢和大家分享哈。

对爬虫而言,大多数情况下,限制抓取速度的瓶颈不在于CPU核心数,而在于网络延迟等待时间,所以对于个人抓取,Python和Java的区别不大。

 

本文涉及的代码,视频以及github地址放在下面的留言区了,需要的同学自取哈。

近期热文

开源一段代码-微信好友分析

从《深入理解计算机系统》谈一谈编程入门

分享一下我自学python过程中看过的那些书和那些课

这篇关于分享一段代码-用Java抓取冯小刚的微博的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/365247

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

一篇文章彻底搞懂macOS如何决定java环境

《一篇文章彻底搞懂macOS如何决定java环境》MacOS作为一个功能强大的操作系统,为开发者提供了丰富的开发工具和框架,下面:本文主要介绍macOS如何决定java环境的相关资料,文中通过代码... 目录方法一:使用 which命令方法二:使用 Java_home工具(Apple 官方推荐)那问题来了,

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

Java AOP面向切面编程的概念和实现方式

《JavaAOP面向切面编程的概念和实现方式》AOP是面向切面编程,通过动态代理将横切关注点(如日志、事务)与核心业务逻辑分离,提升代码复用性和可维护性,本文给大家介绍JavaAOP面向切面编程的概... 目录一、AOP 是什么?二、AOP 的核心概念与实现方式核心概念实现方式三、Spring AOP 的关

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

Java中的.close()举例详解

《Java中的.close()举例详解》.close()方法只适用于通过window.open()打开的弹出窗口,对于浏览器的主窗口,如果没有得到用户允许是不能关闭的,:本文主要介绍Java中的.... 目录当你遇到以下三种情况时,一定要记得使用 .close():用法作用举例如何判断代码中的 input

Spring Gateway动态路由实现方案

《SpringGateway动态路由实现方案》本文主要介绍了SpringGateway动态路由实现方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随... 目录前沿何为路由RouteDefinitionRouteLocator工作流程动态路由实现尾巴前沿S