想要从大数据中获益?请先做好Hadoop管理

2024-01-25 06:08

本文主要是介绍想要从大数据中获益?请先做好Hadoop管理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据湖泊是一个大量信息的集合体,此外还包括成千上万的CPU和超过30 pb级的存储容量。为了保证其平稳运行,IT团队实现了主动Hadoop监测和数据治理过程,此外还包括一系列集群管理工具。

“为确保Comcast'的Hadoop用户可以正常的运行应用程序,我们开始使用数据治理功能,”Michael Fagan说道,他是位于Philadelphia的电视电影集团的首席大数据架构师。管理工作主要包括服务协议,用于限制业务单元的Hadoop资源利用率,此外还包括自动化的执行机制和月度审核机制,用来评估Hadoop的性

对Hadoop集群使用和数据存储的管理是一个很热门的话题,在San Jose, Calif举办的Hadoop 2016峰会上,这个话题被广泛讨论。Fagan 和其他演讲者认为,对于那些试图从大数据中获益的企业来说,有效的Hadoop管理是必须的。一些供应商正在开发新技术,旨在实现集群监控、管理和治理任务的自动化。

举例来说,会议的组织者Hortonworks发布了一个Hadoop的预览版,它集成了Atlas 和Ranger。Apache开源技术可用于给数据配置元数据,加强用户访问权限控制。Hortonworks数据平台(HDP)2.5版本,将于本月晚些时候发布,它增加了系统日志的搜索功能,通过使用Apache Ambari(一个开源的Hadoop管理工具),提供了基于角色的访问控制功能。

Hortonworks的竞争对手MapR Technologies推出了Spyglass Initiative项目的第一个组件——Spyglass Initiative项目旨在创建可定制的仪表板,监控大数据平台。此外,MapR还将发布更新各种开源工具,作为其平台季度更新“包”的一部分,以简化部署流程;第一个MapR Ecosystem Pack 和MapR Monitoring仪表板都将在本月发布。与此同时,数据集成和分析软件供应商Pentaho发布了连接到Hadoop数据湖泊的基础设施参考蓝图。

Hadoop管理的多个方面

Comcast 在它的数据湖泊上运行HDP和Cloudera的Hadoop分布平台——在集群管理方面,它使用了集成Ambari的Hortonworks,Cloudera Manager,以及Pepperdata提供的Hadoop性能管理软件。为了在Hadoop监测数据上完成更高级的聚合,该公司还建立了一个本地管理控制台,称为Comcast Command Center。

“虽然我们可以从不同的工具中得到很多答案,但我们很难得到一致的答案,”Ray Harrison,Comcast Hadoop平台团队的一员说道。

数据湖泊是一个多租户的数据环境,各种用户“聚集到一起,在同一个一沙盒里操作数据,”Harrison说。但是这种方法给性能管理带来了一定的挑战。Hadoop团队今年部署500个节点的集群,为公司数据科学家的高级分析应用程序服务,但这是必须的,因为这些科学家正在大型数据集努力寻找“未知的未知”,这需要强大的计算能力,现有的资源难以应付,Harrison说道。

为了跟上集群变化的节奏,Comcast 特意更新了其资源使用的治理策略,“且在过去的一年内更新了数次,”Fagan说到。下一步是数据治理:Hadoop团队开始推进数据治理项目,依靠Atlas技术来确保每个用户所使用信息的一致性。

治理为要,科技次之

数据治理是Blue Cross Blue Shield of Michigan的首要任务,该大数据平台将于五月上线。在会议的另一次会谈中,Detroit一家公司的分析主管,数据工程师和数据管理者Beata Puncevic说道,她的团队在2015年4月,项目初期就首先开始着手制定新的数据治理流程和策略,而真正开始实施技术细节已经是五个月之后的事了。

“如果你在部署大数据工具之前,没有制定一个强有力的数据治理过程,你很有可能会步履维艰”Puncevic说道。数据治理涉及如下步骤,根据常见数据定义,创建业务术语表,制定数据使用的新规则,解决数据质量和元数据管理的问题。“上面说的这些都很无聊”她开玩笑道。“我们一开始做的这些工作与具体技术无关。”

原始数据被输入到Hortonworks-based Hadoop集群,然后根据数据治理机制进行精炼,以供分析。该系统最初被用来支持的分析应用程序包括用药和临床病例记录系统,Puncevic补充说,这可能需要额外三到五年才能完全建立起大数据架构。

Hadoop监测和治理在University of Texas MD Anderson Cancer Center的大数据待办事项上优先级很高 ,他们在3月份将一个运行HDP的Hadoop集群投入了生产环境。这家位于Houston的癌症治疗和研究机构使用集群存储一些重要的统计数据,这些数据收集于病人的床边传感器;大数据平台的其他用途还包括对不同实验室数据系统的集成,这些实验室在以前是完全独立的,没有任何联系。

传统的IT管理,治理和安全实践仍然适用于大数据环境,Vamshi Punugoti,MD Anderson负责信息系统研究的副主任表示。

“从我们的角度来看,没理由做例外的事,”他说,我们虽然刚刚开始大数据的旅程,但这并不意味着我们能以随意的方式去做。”

在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

这篇关于想要从大数据中获益?请先做好Hadoop管理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/642303

相关文章

Linux创建服务使用systemctl管理详解

《Linux创建服务使用systemctl管理详解》文章指导在Linux中创建systemd服务,设置文件权限为所有者读写、其他只读,重新加载配置,启动服务并检查状态,确保服务正常运行,关键步骤包括权... 目录创建服务 /usr/lib/systemd/system/设置服务文件权限:所有者读写js,其他

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

在Node.js中使用.env文件管理环境变量的全过程

《在Node.js中使用.env文件管理环境变量的全过程》Node.js应用程序通常依赖于环境变量来管理敏感信息或配置设置,.env文件已经成为一种流行的本地管理这些变量的方法,本文将探讨.env文件... 目录引言为什么使php用 .env 文件 ?如何在 Node.js 中使用 .env 文件最佳实践引

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性