Become.com的 Web Crawler: 一个超大规模的Java应用程序(想开发自己的搜索引擎增值服务的必读)

本文主要是介绍Become.com的 Web Crawler: 一个超大规模的Java应用程序(想开发自己的搜索引擎增值服务的必读),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址:http://java.sun.com/developer/technicalArticles/WebServices/become/?feed=JSC

1 Become.com准备开发他们的第二代搜索引擎。他们曾经花了一年的时间开发了一个C++版本的web crawler ,但是有明显的内存和线程问题。

2 现在他们决定用java重新开发这个引擎。两个开发者,花了3个月,就构建了一个原型Crawler A。使用Java的网络库,多线程框架和RMI。虽然有一些内存和线程问题,但是性能仍然让人满意。

3 接下来他们开发了下一个版本Crawer B。其中取数据器(爬虫)使用Java,而控制器部分用C++实现。取数据部分负责I/O部分。采集,解析和分析web页的内容,从中提取出链接并发送给控制器。控制器负责管理数据结构和把数据存储到磁盘。多个取数据器和控制器通信,但是彼此间没有通信。

两个版本爬虫都是用纯java写的,没有用JNI,两个版本共享了一些内容分析的包也是完全用java实现的

4 C++用来构建索引,他对CPU要求很高。而爬虫(处理机器学习,分类和拼写检查是Java)。一开始数据是存放在关系数据库里面的,但是由于性能问题被替换掉。他们开发了一种内部格式,有java和C++的接口

5 使用jfreechart作为图表显示工具。控制器是RMI服务器,而爬虫是RMI客户端

6 开发者使用j2se内建的库和免费java组件来加速他们的开发。他们无需花费任何时间对内存错误进行调试。

7 他们一开始就是用j2se5.0 ,使用泛型来简化代码和使代码易读。广泛使用阻塞队列将工作从一个线程转移到另一个线程。由于页面到来的时间是异步的。

爬虫A从原型到令人基本满意花了大该六个月时间。

8 使用perl脚本来重启死掉的爬虫进程。

9 在爬虫B的开发中,他们使用了java.nio库,这比使用多线程带来了更好的性能,但是一些类,例如URL不支持NIO,他们自己实现了一个URLConnection.

10 配置文件使用JAXB存储为xml形式

11 在比较了eclipse和IDEJ之后,他们最终选择了Netbean作为开发工具。因为它extremely fast compared to Eclipse

12 他们还将继续使用java平台,因为能够快速开发比精确的内存控制更重要



Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=470892


这篇关于Become.com的 Web Crawler: 一个超大规模的Java应用程序(想开发自己的搜索引擎增值服务的必读)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/618293

相关文章

Python实例题之pygame开发打飞机游戏实例代码

《Python实例题之pygame开发打飞机游戏实例代码》对于python的学习者,能够写出一个飞机大战的程序代码,是不是感觉到非常的开心,:本文主要介绍Python实例题之pygame开发打飞机... 目录题目pygame-aircraft-game使用 Pygame 开发的打飞机游戏脚本代码解释初始化部

SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志

《SpringBoot项目配置logback-spring.xml屏蔽特定路径的日志》在SpringBoot项目中,使用logback-spring.xml配置屏蔽特定路径的日志有两种常用方式,文中的... 目录方案一:基础配置(直接关闭目标路径日志)方案二:结合 Spring Profile 按环境屏蔽关

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.

使用Python开发一个现代化屏幕取色器

《使用Python开发一个现代化屏幕取色器》在UI设计、网页开发等场景中,颜色拾取是高频需求,:本文主要介绍如何使用Python开发一个现代化屏幕取色器,有需要的小伙伴可以参考一下... 目录一、项目概述二、核心功能解析2.1 实时颜色追踪2.2 智能颜色显示三、效果展示四、实现步骤详解4.1 环境配置4.

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

java中long的一些常见用法

《java中long的一些常见用法》在Java中,long是一种基本数据类型,用于表示长整型数值,接下来通过本文给大家介绍java中long的一些常见用法,感兴趣的朋友一起看看吧... 在Java中,long是一种基本数据类型,用于表示长整型数值。它的取值范围比int更大,从-922337203685477

java Long 与long之间的转换流程

《javaLong与long之间的转换流程》Long类提供了一些方法,用于在long和其他数据类型(如String)之间进行转换,本文将详细介绍如何在Java中实现Long和long之间的转换,感... 目录概述流程步骤1:将long转换为Long对象步骤2:将Longhttp://www.cppcns.c

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过

Springboot整合Redis主从实践

《Springboot整合Redis主从实践》:本文主要介绍Springboot整合Redis主从的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言原配置现配置测试LettuceConnectionFactory.setShareNativeConnect