Become.com的 Web Crawler: 一个超大规模的Java应用程序(想开发自己的搜索引擎增值服务的必读)

本文主要是介绍Become.com的 Web Crawler: 一个超大规模的Java应用程序(想开发自己的搜索引擎增值服务的必读),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址:http://java.sun.com/developer/technicalArticles/WebServices/become/?feed=JSC

1 Become.com准备开发他们的第二代搜索引擎。他们曾经花了一年的时间开发了一个C++版本的web crawler ,但是有明显的内存和线程问题。

2 现在他们决定用java重新开发这个引擎。两个开发者,花了3个月,就构建了一个原型Crawler A。使用Java的网络库,多线程框架和RMI。虽然有一些内存和线程问题,但是性能仍然让人满意。

3 接下来他们开发了下一个版本Crawer B。其中取数据器(爬虫)使用Java,而控制器部分用C++实现。取数据部分负责I/O部分。采集,解析和分析web页的内容,从中提取出链接并发送给控制器。控制器负责管理数据结构和把数据存储到磁盘。多个取数据器和控制器通信,但是彼此间没有通信。

两个版本爬虫都是用纯java写的,没有用JNI,两个版本共享了一些内容分析的包也是完全用java实现的

4 C++用来构建索引,他对CPU要求很高。而爬虫(处理机器学习,分类和拼写检查是Java)。一开始数据是存放在关系数据库里面的,但是由于性能问题被替换掉。他们开发了一种内部格式,有java和C++的接口

5 使用jfreechart作为图表显示工具。控制器是RMI服务器,而爬虫是RMI客户端

6 开发者使用j2se内建的库和免费java组件来加速他们的开发。他们无需花费任何时间对内存错误进行调试。

7 他们一开始就是用j2se5.0 ,使用泛型来简化代码和使代码易读。广泛使用阻塞队列将工作从一个线程转移到另一个线程。由于页面到来的时间是异步的。

爬虫A从原型到令人基本满意花了大该六个月时间。

8 使用perl脚本来重启死掉的爬虫进程。

9 在爬虫B的开发中,他们使用了java.nio库,这比使用多线程带来了更好的性能,但是一些类,例如URL不支持NIO,他们自己实现了一个URLConnection.

10 配置文件使用JAXB存储为xml形式

11 在比较了eclipse和IDEJ之后,他们最终选择了Netbean作为开发工具。因为它extremely fast compared to Eclipse

12 他们还将继续使用java平台,因为能够快速开发比精确的内存控制更重要



Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=470892


这篇关于Become.com的 Web Crawler: 一个超大规模的Java应用程序(想开发自己的搜索引擎增值服务的必读)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/618293

相关文章

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

Apache Ignite 与 Spring Boot 集成详细指南

《ApacheIgnite与SpringBoot集成详细指南》ApacheIgnite官方指南详解如何通过SpringBootStarter扩展实现自动配置,支持厚/轻客户端模式,简化Ign... 目录 一、背景:为什么需要这个集成? 二、两种集成方式(对应两种客户端模型) 三、方式一:自动配置 Thick

Spring WebClient从入门到精通

《SpringWebClient从入门到精通》本文详解SpringWebClient非阻塞响应式特性及优势,涵盖核心API、实战应用与性能优化,对比RestTemplate,为微服务通信提供高效解决... 目录一、WebClient 概述1.1 为什么选择 WebClient?1.2 WebClient 与

Java.lang.InterruptedException被中止异常的原因及解决方案

《Java.lang.InterruptedException被中止异常的原因及解决方案》Java.lang.InterruptedException是线程被中断时抛出的异常,用于协作停止执行,常见于... 目录报错问题报错原因解决方法Java.lang.InterruptedException 是 Jav

深入浅出SpringBoot WebSocket构建实时应用全面指南

《深入浅出SpringBootWebSocket构建实时应用全面指南》WebSocket是一种在单个TCP连接上进行全双工通信的协议,这篇文章主要为大家详细介绍了SpringBoot如何集成WebS... 目录前言为什么需要 WebSocketWebSocket 是什么Spring Boot 如何简化 We

java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)

《java中pdf模版填充表单踩坑实战记录(itextPdf、openPdf、pdfbox)》:本文主要介绍java中pdf模版填充表单踩坑的相关资料,OpenPDF、iText、PDFBox是三... 目录准备Pdf模版方法1:itextpdf7填充表单(1)加入依赖(2)代码(3)遇到的问题方法2:pd

Java Stream流之GroupBy的用法及应用场景

《JavaStream流之GroupBy的用法及应用场景》本教程将详细介绍如何在Java中使用Stream流的groupby方法,包括基本用法和一些常见的实际应用场景,感兴趣的朋友一起看看吧... 目录Java Stream流之GroupBy的用法1. 前言2. 基础概念什么是 GroupBy?Stream

SpringBoot监控API请求耗时的6中解决解决方案

《SpringBoot监控API请求耗时的6中解决解决方案》本文介绍SpringBoot中记录API请求耗时的6种方案,包括手动埋点、AOP切面、拦截器、Filter、事件监听、Micrometer+... 目录1. 简介2.实战案例2.1 手动记录2.2 自定义AOP记录2.3 拦截器技术2.4 使用Fi

最新Spring Security的基于内存用户认证方式

《最新SpringSecurity的基于内存用户认证方式》本文讲解SpringSecurity内存认证配置,适用于开发、测试等场景,通过代码创建用户及权限管理,支持密码加密,虽简单但不持久化,生产环... 目录1. 前言2. 因何选择内存认证?3. 基础配置实战❶ 创建Spring Security配置文件

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、