转:cygwin简单应用及Nutch之Crawler工作流程

2024-06-23 17:38

本文主要是介绍转:cygwin简单应用及Nutch之Crawler工作流程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

cygwin简单应用:

cygwin home 目录:
ls /                       -- 根目录
ls /cygdrive               -- 查看本地操作系统的盘符,如c盘、d盘
pwd                       -- 当前位置路径
/home/zf                   -- 对应目录在 \cygwin\home\zf,cygwin的安装路径下面
java -version
which java                 --查看java安装路径
/cygdrive/d/java/jdk1.6.0_32/bin/java
echo $JAVA_HOME

在用命令设置环境变量是,需要注意:
windows中的路径分隔符为:\   而在Unix 中的却为/
另外,在Unix中的路径不能含有空格。如果有空格,需要使用单引号。
JAVA_HOME='C:/Program Files/Java/jdk1.6'




Setup 
JAVA_HOME  ifyou are seeing  JAVA_HOME  notset.其中Progra~1为中间有空格的写法
exportJAVA_HOME=D:/Progra~1/Java/jdk1.7.0_45 

//切换到nutch目录
cd /cygdrive/E/javaStudy/爬虫工具/资源包/apache-nutch-1.7-bin/bin

mkdir urls
echo http://www.163.com > urls/url.txt
cat urls/url.txt
bin/nutch crawl urls -dir data -threads 5 -depth 2

Nutch之Crawler工作流程

在Nutch中,Crawler操作的实现是通过一系列子操作的实现来完成的。这些子操作Nutch都提供了子命令行可以单独进行调用。下面就是这些子操作的功能描述以及命令行,命令行在括号中。
1) 建立初始 URL集
2) 将 URL 集注入 crawldb数据库---inject
3) 根据 crawldb数据库创建抓取列表---generate
4) 执行抓取,获取网页信息---fetch
5) 更新数据库,把获取到的页面信息存入数据库中---updatedb
6) 重复进行 3~5的步骤,直到预先设定的抓取深度。---这个循环过程被称为“产生/抓取/更新”循环

7)  根据sengments 的内容更新linkdb数据库---invertlinks
8)  建立索引---index

9) 在索引中丢弃有重复内容的网页和重复的URLs (dedup).
10) 将segments中的索引进行合并生成用于检索的最终index(merge).

11)  用户通过用户接口进行查询操作
12) 将用户查询转化为lucene 查询
13) 返回结果

其中,1~6属于爬虫部分;7~10 属于索引部分;11~13属于查询部分。

 在创建一个WebDB之后,“产生/抓取/更新”循环(步骤3-6)根据一些种子URLs开始启动。当这个循环彻底结束,Crawler根据抓取中生成的segments创建索引(步骤7-10)。在进行重复URLs清除(步骤9)之前,每个segment的索引都是独立的(步骤8)。最终,各个独立的segment索引被合并为一个最终的索引index(步骤10)。
  其中有一个细节问题,Dedup操作主要用于清除segment索引中的重复URLs,但是我们知道,在WebDB中是不允许重复的URL存在的,那么为什么这里还要进行清除呢?原因在于抓取的更新。比方说一个月之前你抓取过这些网页,一个月后为了更新进行了重新抓取,那么旧的segment在没有删除之前仍然起作用,这个时候就需要在新旧segment之间进行除重。

 

Nutch本身的命令:

抓取:bin/nutch crawl urls -dir data -threads 5 -depth

读取crawlDB:bin/nutch readdb data/crawldb -stats

这篇关于转:cygwin简单应用及Nutch之Crawler工作流程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1087828

相关文章

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

Spring Boot分层架构详解之从Controller到Service再到Mapper的完整流程(用户管理系统为例)

《SpringBoot分层架构详解之从Controller到Service再到Mapper的完整流程(用户管理系统为例)》本文将以一个实际案例(用户管理系统)为例,详细解析SpringBoot中Co... 目录引言:为什么学习Spring Boot分层架构?第一部分:Spring Boot的整体架构1.1

利用Python操作Word文档页码的实际应用

《利用Python操作Word文档页码的实际应用》在撰写长篇文档时,经常需要将文档分成多个节,每个节都需要单独的页码,下面:本文主要介绍利用Python操作Word文档页码的相关资料,文中通过代码... 目录需求:文档详情:要求:该程序的功能是:总结需求:一次性处理24个文档的页码。文档详情:1、每个

nodejs打包作为公共包使用的完整流程

《nodejs打包作为公共包使用的完整流程》在Node.js项目中,打包和部署是发布应用的关键步骤,:本文主要介绍nodejs打包作为公共包使用的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言一、前置准备二、创建与编码三、一键构建四、本地“白嫖”测试(可选)五、发布公共包六、常见踩坑提醒

C#利用Free Spire.XLS for .NET复制Excel工作表

《C#利用FreeSpire.XLSfor.NET复制Excel工作表》在日常的.NET开发中,我们经常需要操作Excel文件,本文将详细介绍C#如何使用FreeSpire.XLSfor.NET... 目录1. 环境准备2. 核心功能3. android示例代码3.1 在同一工作簿内复制工作表3.2 在不同

Ubuntu向多台主机批量传输文件的流程步骤

《Ubuntu向多台主机批量传输文件的流程步骤》:本文主要介绍在Ubuntu中批量传输文件到多台主机的方法,需确保主机互通、用户名密码统一及端口开放,通过安装sshpass工具,准备包含目标主机信... 目录Ubuntu 向多台主机批量传输文件1.安装 sshpass2.准备主机列表文件3.创建一个批处理脚

Java中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例解析

《Java中的分布式系统开发基于Zookeeper与Dubbo的应用案例解析》本文将通过实际案例,带你走进基于Zookeeper与Dubbo的分布式系统开发,本文通过实例代码给大家介绍的非常详... 目录Java 中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例一、分布式系统中的挑战二

Java 缓存框架 Caffeine 应用场景解析

《Java缓存框架Caffeine应用场景解析》文章介绍Caffeine作为高性能Java本地缓存框架,基于W-TinyLFU算法,支持异步加载、灵活过期策略、内存安全机制及统计监控,重点解析其... 目录一、Caffeine 简介1. 框架概述1.1 Caffeine的核心优势二、Caffeine 基础2

一个Java的main方法在JVM中的执行流程示例详解

《一个Java的main方法在JVM中的执行流程示例详解》main方法是Java程序的入口点,程序从这里开始执行,:本文主要介绍一个Java的main方法在JVM中执行流程的相关资料,文中通过代码... 目录第一阶段:加载 (Loading)第二阶段:链接 (Linking)第三阶段:初始化 (Initia

使用Node.js和PostgreSQL构建数据库应用

《使用Node.js和PostgreSQL构建数据库应用》PostgreSQL是一个功能强大的开源关系型数据库,而Node.js是构建高效网络应用的理想平台,结合这两个技术,我们可以创建出色的数据驱动... 目录初始化项目与安装依赖建立数据库连接执行CRUD操作查询数据插入数据更新数据删除数据完整示例与最佳