hadoop2.2专题

【甘道夫】Win7+Eclipse+Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行

引言 之前成功在服务器上为Mahout0.9打patch,使其支持Hadoop2.2.0。 今天的需求是:在Win7+Eclipse+Maven环境下开发Mahout程序,打jar包放到集群上,使其在Hadoop2.2.0下正常运行。 过程 步骤一:Eclipse下创建Maven工程 pom.xml: 1.引入mahout依赖     <d

【甘道夫】用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0

引言 接前一篇文章《 【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0》 http://blog.csdn.net/u010967382/article/details/39088035, 为Mahout0.9打过Patch编译成功后,使用贝叶斯文本分类来测试Mahout0.9对Hadoop2.2.0的兼容性。 欢迎转载,转载请注明出处:

【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0

引言 Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本,但很多情况下,由于集群环境的Hadoop已经是2.2.0以上版本,又必须使用Mahout,此时就需要编译源码,使得Mahout支持Hadoop2了。 欢迎转载,请注明出处: http://blog.csdn.net/u010967382/article/details/39088035

【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详解

环境: hadoop2.2.0 hive0.13.1 Ubuntu 14.04 LTS java version "1.7.0_60" Oracle10g ***欢迎转载,请注明来源***    http://blog.csdn.net/u010967382/article/details/38709751 到以下地址下载安装包

亚马逊Hadoop2.2内存参数模板

[b][color=olive][size=large] m1.medium 配置选项 默认值 mapreduce.map.java.opts -Xmx512m mapreduce.reduce.java.opts -Xmx768m mapreduce.map.memory.mb 768 mapreduce.reduce.memory.mb 1024 yarn.app.mapre

Hadoop2.2如何集成Apache Pig0.12.1?

[b][color=green][size=large] 散仙假设你的Hadoop环境已经安装完毕 (1)到[url]https://archive.apache.org/dist/pig/[/url]下载对应的tar包,如果是hadoop0.20.x之前的版本,则直接可以用,如果Hadoop2.x之后的,则需要重新编译,在pig的根目录下执行如下命令: [/size][/c

Hadoop2.2.0单节点安装及测试

Hadoop2.2.0单节点安装及测试 作者:雨水, 日期:2013-10-24, CSDN博客:http://blog.csdn.net/gobitan 摘要:本文记录了Hadoop单节点安装过程,并做了基本配置,启动运行和测试了一个单词统计例子。   一:环境准备:基于Windows下的VMware Player4.0.3中的ubuntu12.04-64server. 下载免费的VM

Hadoop2.2.0在CentOS6.5上的集群搭建简单教程

本文将介绍搭建Hadoop2.x系列集群的主要过程和相关问题的解决,目的让Hadoop初学者能够快速地熟悉环境搭建以及上手mapreduce程序的开发。下面我们进入正题: 一、软件准备 VMWare WorkStation 10: 自行百度搜索下载,也可以采用Virtual Box(但我在win7上安装老出现问题,没有成功); CentOS-6.5-

Hadoop2.2maven编译报MojoExecutionException异常

描述: 在win7上基于maven编译hadoop2.2的时候报如下错误: org.apache.maven.plugin.MojoExecutionException: 'protoc --version' did not return a version -> [Help 1] 问题原因: 需要安装protoc 注意引用:http://snv.iteye.com/ 解决方式: 1.下载p

Hadoop2.2内存调优

今天散仙写了个MapReduce作业,目的是读数据库里面多个表的数据,然后在JAVA中根据具体的业务情况做过滤,并把符合数据的结果写入到HDFS上,在Eclipse里面提交作业进行调试的时候,发现在Reduce阶段,总是抛出Java heap space的异常,这异常明显,就是堆内存溢出造成的,然后散仙仔细看了下业务块的代码,在Reduce里读数据库的时候,有几个表的返回数据量比较大约有50万左右

ubuntu64位hadoop2.2.0全分布安装部署

1、安装完ubuntu系统后,激活root账户 sudo passwd root(参考网址:http://www.aboutyun.com/blog-61-121.html) 2、增加用户 用命令sudo adduser aboutyun (注:ubuntu建用户最好用adduser,虽然adduser和useradd是一样的在别的linux糸统下,但是我在ubuntu下用useradd时

win7 eclipse调用虚拟机ubuntu部署的hadoop2.2.0伪分布(2)

所用软件下载网址:链接:http://pan.baidu.com/s/1bn4IIQF密码:ramg 1、在eclipse中直接运行程序调用虚拟机ubuntu部署的hadoop2.2.0伪分布   (1)右键点击TestHadoop项目中的Run As选择Run Configurations,配置TestHadoop项目的运行参数: 点击运行   (2)问题1:运行报错如下: l

win7 eclipse调用虚拟机ubuntu部署的hadoop2.2.0伪分布(1)

所用软件下载网址:链接:http://pan.baidu.com/s/1bn4IIQF密码:ramg win7环境下jdk下载路径(/jdk/jdk-7u71-windows-i586.exe) eclipse下载路径(/eclipse/eclipse-jee-indigo-SR2-win32.zip) hadoop插件下载路径(/hadoop/eclipse插件/hadoop2x-ec

虚拟机ubuntu部署hadoop2.2.0伪分布(2)

所用软件下载网址:链接:http://pan.baidu.com/s/1bn4IIQF密码:ramg   1、hadoop文件配置 hadoop-2.2.0安装完成后接下来我们可以进行伪分布配置(Hadoop可以在伪分布模式下运行单结点)。(可参考网址:http://www.linuxidc.com/Linux/2014-09/106148.htm) 接下来我们要配置的文件有四个,分别

虚拟机ubuntu部署hadoop2.2.0伪分布(1)

链接:http://pan.baidu.com/s/1bn4IIQF密码:ramg   开发环境:win7(32bit)+Eclipse(eclipse-jee-indigo-SR2-win32) 1、首先安装虚拟机VMWare,然后在虚拟机上安装ubuntu系统(/linux镜像文件/ubuntu-12.04-server-i386.ios)                    虚拟机

windows 8.0上eclipse 4.4.0 配置centos 6.5 上的hadoop2.2.0开发环境

eclipse的hadoop插件下载地址:https://github.com/winghc/hadoop2x-eclipse-plugin将下载的压缩包解压,将hadoop-eclipse-kepler-plugin-2.2.0这个jar包扔到eclipse下面的dropins目录下,重启eclipse即可进入windows->Preference配置根目录,这里面的hadoop instal

【hadoop】 1008-使用64位Linux编译hadoop2.2.0

使用64位Linux编译hadoop2.2.0 查看服务器的版本 [hadoop@cloud01 hadoop]$ more /proc/version  Linux version 2.6.32-358.el6.i686 (mockbuild@c6b8.bsys.dev.centos.org) (gcc version 4.4.7 20120313 (Red Hat 4