大数据时代企业CDO的新玩儿法

本文主要是介绍大数据时代企业CDO的新玩儿法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

我们正在历经一场由大数据应用的普及引发的变革，即使如蓝色巨人IBM这样的传统巨头也在通过及时转型来应对这场技术浪潮的席卷。IBM认为，大数据与工业时代的蒸汽、电力、石油一样，都是重要的未来资源，企业需要专业人才掌握并利用这种资源，来推动这个时代的进步和发展，就好像当时有人利用石油和电力推动工业时代进步一样。

这时，企业CDO(首席数据官)责无旁贷地将挑起这个重任。CDO所关注的已经不止于企业数据库、数据工具和数据分析工具的选型，而是如何利用这些工具对企业内部、外部行业数据进行分析，并根据分析结果为企业日常运营和未来发展提供战略性指导，成为企企业未来发展方向的参谋官。因此可以捕获、管理和分析大量结构化和非结构化数据的工具对于企业和CDO来说,就是从众多竞争者中脱颖而出的利刃。

近日,IBM 在北京富力万丽酒店举行“IBM数据管理与洞察研讨会”，旨在帮助企业和CDO找到更专业的数据处理和分析服务，以及如何利用IBM数据分析工具PDA与开源技术的结合，提高数据存储、整合与治理以及最终的分析的能力，来定义大数据时代行业数据的新玩儿法。

PDA(Power Data System for Analytics)是IBM针对大数据仓库推出的一体机，具于快速、简单、可扩展和智能等特点。其专门用于在数据仓库和OLAP系统中处理结构化数据，来解决企业传统数据仓库基础架构复杂、维护困难等弊端。

OLAP系统和OLTP的不同之处在于OLAP着重于分析型的系统，呈现出以涉及数据量大、多表连接等特征。目前数据仓库和OLAP市场上的主流技术架构为Share Nothing+MPV，具体来说就是将数据按照一定的规则分布在多个磁盘上面，也就是我们常说的数据磁盘，相较OLTP系统将所有数据都存放于一块盘上的方式，使用Share Nothing架构会使余额表的数据均匀分布在所有磁盘，后续对这张余额表进行的所有操作也都是所有磁盘一起运行，使系统性能得到显著提升。由于采用Share Nothing架构，使PDA拥有比传统架构快10—100位的数据处理速度。

硬件加速卡是PAD的技术核心，它由两块8核、128G的磁盘组成，整个机器可用数据容量192TB。硬件加构卡主要有以下三个功能：

压缩和解压——数据入库进行压缩和解压且不占用计算节点，而是完成在压缩和解压消耗的CPU两个卡上面。
投影——我们可以把它简单理解为把不需要的列去掉。PDA数据流入内存前，会先经过一道流处理将不需要的字段会被全部砍掉，很大程度上减少内存压力。
过滤——这是把不需要的行去掉。经过投影和过滤功能处理过以后，数据从磁盘往内存搬的时候，只会涉及到最后有用的数据，使系统性能得到显著提升。

PDA可以与Datastage等IBM内部产品实现无缝集成。今年PDA新加入了Fluid Query，它可以实现客户在应用端发起查询以后，无论这个查询涉及几张表，是在PDA平台里还是在Hadoop平台里，都可以通过Fluid Query功能自动去找到这张表对应的平台，然后去做相应的查询和操作业务。

IBM PDA通过磁盘、计算节点和管理节点来做到HA的三重保障。另外，它支持很多第三方备份软件，可以实现全量备分、插量备份、累计备分三种模式，最大程度保证数据安全。

最后要说明的是，PDA相对于市面上其他数据仓库一体机来讲是，需要企业投入的管理力量是最小的，体现几点。第一，PDA没有索、主件、外件和分区，也基本不需要调优，因为它的调优在模型设计阶段已经体现。第二，不需要存储管理。PDA的设计中不存在传统架构中类似于表空间的储存管理。第三，本身具有容错机制。一旦发生故障，只需要及时将出现问题的部分及时更换，不会引起某个机器瘫痪，企业也就不用再雇佣专职的数据管理员。

PDA走进中国大陆地区不过三年时间，却已经拥有电信、证券、银行等传统行业在内的40余位客户，通过提供高性能、海量数据存储和海量数据处理、降低运维成本、对业务数据进行更加深层次的分析研究等方面的解决方案，为企业带来价值。