亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的

2024-09-06 13:32

本文主要是介绍亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政亚信府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径。

在下午的金融@Big Data论坛上,亚信大数据平台部产品经理杨晋作主题演讲,讲述了亚信在技术上的应用和分享。

杨晋:下午好,我是最后一个做演讲的。前面的专家和领导分享了大数据在金融行业的应用,包括在互联网金融、征信等等。下面我谈一下我们亚信在技术上的应用和分享。

我们本身亚信主要是专注于运营商行业,在移动、电信、联通三大运营商系统建设里我们亚信连续多年占据第一位,同时我们开拓很多海外市场。我们亚信是作为互联网建筑师,现在我们想成为产业互联网的领航者,因此我们走出了传统的运营商,我们也在其他的行业不断的介入,包括今天说的金融行业。

这个是前段时间和某个银行做大数据的研究方案和课题交流的时候了解到的,这个银行是通过小型机来做数据处理,每天处理任务超过8000个。涉及的核心的表和模型有3000多个,每天涉及1T的业务。数据业务很复杂,而且量也很大,有一些指标是T+2才可以展现出来,今天的交易行为,可能到后天领导和业务人员才可以看到分析指标。现在的互联网时代,大数据时代下这种效率是无法容忍的,所以需要实现到T+1,第一个还是传统的架构,小型机去实现扩容。另外一方面通过大数据来实现,家里一个X86的集群,来实现大数据的存储。根据数据量的增长,包括业务复杂性的增长不断的添加服务器做集群的扩容。同时可以大幅度的节省成本。

我们亚信认为企业级的平台分为四个阶段,第一个是导入期,利用亚信的技术实现特定场景的需求。比如运营商做的流量经营、小贷查询等等业务。第二个阶段就是平台开放期,当大数据平台建立完善以后在平台上存储越来越多的数据,现在我们反复强调数据是一个重要资产,这个资产并不是说把数据采集过来存储在硬盘上,数据就有价值了。只有对数据进行不断的分析和挖掘才能真正的实现数据的变现,这对单一的厂商可能就无法很好的达到这个目的,可能要引入更多的不同的厂商,在各个部门在同一个大数据平台针对性的进行开发实现数据的变现。这个阶段就涉及到平台的资源的有效的管理和分配,包括权限的细分。

第三个阶段是扩展期,像大型的互联网公司是处于这个阶段,他们通过在大数据平台上进行复杂的算法进行数据挖掘和分析,同时他们更进一步关注平台的稳定性,以及更好的降低投资成本。第四个阶段就是成熟期,我们认为Hadoop会成为一个底层的核心的基础架构。

同时要具备几个能力,第一个是高效能力,我们现在希望在大数据平台上可以通过标准的(英文)方式实现数据的高效处理。第二个资源管理,前面说到了平台开放情况下需要引入不同的部门,需要引入各方的厂商在同一个平台做数据开发,这个时候需要对厂商或者部门,对它划分一定的资源,进行资源有效性的管理,同时做权限划分。第三点就是涉及平台安全性了。本身平台的高效处理还是通过spak技术来实现的,它是完整的体系,像(英文),实现P处理、流处理等等各种应用场景的需求。现在离线处理,我们可以用在模型汇总方面。在运营商里涉及的数据量比较大,而且业务逻辑复杂,所以涉及数据的分层处理。主要分为几个层,一个是原始数据,一个是数据准备层,然后就是数据的汇总层,还有数据的表现层。像银行里面也有数据分层,当然具体的分层的名称和具体的含义跟运营商有不同,但是大概架构是类似的。现在对这种海量的数据的标准化,数据的快速处理,包括对数据的初步汇总,因为数据汇总后量比较好了,这时候可以用spak技术放在内存里,大幅度提高效率。像客户查询不管在运营商还是在互联网,还是在银行里都有客户标签和客户分类的概念,这个场景里主要是针对三千万的用户,每个用户是超过两千个用户标签,这里面包括用户的自然属性,比如说年轻、性别、家庭地址等等,还有就是属于社会属性的标签,比如说IT从业人员还是工人,是偏爱运动还是偏爱窝在家里看电影还是说喜欢购物。针对三千万用户,每个用户两个标签,建立一个大数据平台,通过spak技术实现,比原来的小型机提高3倍效率,节省投资达到百万以上。实时处理场景里可以通过(英文)这个技术也可以获得很好的效果。

在过去我们做实时处理更多是依赖于(英文)技术,(英文)技术只是提供一个基础的流处理的框架,但是开发中有很多应用是要我们自己开发,在实时处理过程中的内存管理也是我们做。就带来了复杂性,包括工作量的大幅的提高,像大型的互联网公司,比如腾讯用spak用的效果比较好,是因为背后大量的人员和资源投入。现在我们有了spark可以按照时间窗口进行切分,把时间窗口加到内存里,通过spark在内存里进行处理,可以达到必须好的效率,牺牲了一定的时效性,不会是来一条数据就对一条数据进行一个处理,但是带来了吞吐量的大幅度提升。

这个是之前我们在一个省做的一个项目的案例,就是在传统仓库里进行分析的数据还有业务逻辑,从仓库迁到大数据平台上面。这时候我们发现有一些脚本里的数据量的数据模型明确不是很大,但是在我们大数据平台运行以后反而处理效果低很多。还有的时候脚本里设计逻辑很复杂,大数据里会分为不同的工作,但是整个处理完的时间会变得特别长,就是因为在(英文)处理框架里会有多次的数据落地和系列化。现在引入spark技术,我们可以看到相比原来的(英文)机制,效率是快了5倍以上,同时一个巨大的优势就是把标准的(英文)直接从仓库拿出来,直接在spark上运行,不需要进行过多的改写和加工。这也是spark的一个重要的组件,它既可以支持(英文),同时也可以支持标准化的(英文),可以是平台上的通用的一个解决方案。

这个是之前在某一个省做的实时营销的平台,这是处理用户的姓名数据。每次手机开关机,或者移动到特定的位置都会产生姓名数据,包括我们的手机号码、时间、当前所属的位置信息等等,这个信息是非常有用的。在这里面用户的姓名数据每秒钟是将近5万条,这个省是8千万的用户数据,他的业务需求就是通过对数据分析要形成用户当前所处的位置,还有用户的位置轨迹的变迁信息,同时根据变迁有营销规则,通过营销平台来对用户筛选出我要推荐的用户群发送给营销系统。就像经常我们碰到的进到厂商里面,在很短的时间内就会收到短信提醒,这个厂商会搞促销活动,这就是这个平台的典型应用。我们是通过spark加(英文)来实现的,我们是每30秒为一个时间窗口,把数据加载到内存里,和信息进行匹配。我们输出的信息会作为一个姓名数据的增强,会在原有的姓名数据打上用户上一次所处的标签,把这些用户资料信息进行关联匹配,通过企业的标准(英文)的方式实现业务的开发。

我们的系统的好处首先实现了大数据量的快速处理,每个时间窗口要处理三百万的数据量,只要不到30秒就可以完成处理。另外可以写标准的(英文)可以进行业务逻辑的快速开发,比如说像十一黄金周,7天时间内我们会做一些旅游产品的营销推荐,像双十一可能只是在双十一前后一两天做商品的推荐,明天马上到双十二了,不知道大家有没有收到相关促销信息,收到了说明他们很好的利用了实时营销的平台,做了很好的数据处理。

spark技术从去年到今年变得特别火热,在我们亚信大数据平台的部门,从2013年年初我们就开始对spark技术进行跟踪和研究。同时我们培养了7位(英文),下一步我们的目标是进一步培养出我们的(英文)技术大牛,我们也可以对spark的发展起到巨大的推动的作用。也可以使spark在我们的产品和平台里起到更好的应用。

前面讲数据的高效处理,下面讲一下分配。我提到的Hadoop。现在在Hadoop2.0时代有了亚这个组件,它可以实现组件的管理,实现了Hadoop的框架,也可以实现像spark的不同的框架的混搭架构的管理。同时实现资源的有效利用。在Hadoop2.0时代只能是通过抽象的概念对数据分配,在Hadoop可以实现细资源的分配和管理。在大数据平台开放我们要引入不同的厂商和部门,我们认为不同的厂商和部门都是属于一个租户,大数据平台上会针对不同的租户分配资源,就是CPU和内存,分配资源会做限定,包括最小值和最大值,保证不同的厂商提交任务到大数据平台上的时候,保证你的资源提供给你,最小资源无法满足你的需求,可以给你提供更多的资源,强占空闲资源,实现削峰填谷。

在这里我们通过网络安全协议实现大数据平台本身服务器内部的服务交互的安全控制,大数据平台会和很多的外部系统有业务交互和数据交互,这里是通过接口来开放计算资源和存储资源。这里我们还扩展了安全组件,(英文)组件实现了(英文)的控制,现在实现针对(英文)读写的全面的控制,可以满足各类应用场景的需求。他们使用我们的大数据平台可能涉及不同的人员,比如业务人员只是对核心的数据模型有操作权限,测试人员只是分配读权限,做数据质量的集合。通过我们这种详尽的安全管理方式可以很好的满足需求。

最后也借这个机会相当于给我们产品做一个广告,本身亚信大数据平台方案,在spark和Hadoop的基础上,为客户做数据分析平台。我们主要包括两个产品,一个是我们自己基于开源社区做的集成分化的Hadoop产品,可以满足P处理还有流处理等等各种场景的应用需求。还有就是OCDC的数据分析产品,可以实现流程编排、用户管理等等,这个是我们的两个产品。同时我们也坚持技术的开放和共享原则,技术来源于社区,贡献与社区。同时我们会对所有的产品,包括我们的自己的产品,提供专业化的服务,包括部署、优化、升级等等。这就是我今天全部的介绍,谢谢大家。

这篇关于亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1142140

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

利用Python操作Word文档页码的实际应用

《利用Python操作Word文档页码的实际应用》在撰写长篇文档时,经常需要将文档分成多个节,每个节都需要单独的页码,下面:本文主要介绍利用Python操作Word文档页码的相关资料,文中通过代码... 目录需求:文档详情:要求:该程序的功能是:总结需求:一次性处理24个文档的页码。文档详情:1、每个

Java中的Schema校验技术与实践示例详解

《Java中的Schema校验技术与实践示例详解》本主题详细介绍了在Java环境下进行XMLSchema和JSONSchema校验的方法,包括使用JAXP、JAXB以及专门的JSON校验库等技术,本文... 目录1. XML和jsON的Schema校验概念1.1 XML和JSON校验的必要性1.2 Sche

Java中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例解析

《Java中的分布式系统开发基于Zookeeper与Dubbo的应用案例解析》本文将通过实际案例,带你走进基于Zookeeper与Dubbo的分布式系统开发,本文通过实例代码给大家介绍的非常详... 目录Java 中的分布式系统开发基于 Zookeeper 与 Dubbo 的应用案例一、分布式系统中的挑战二

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

Java 缓存框架 Caffeine 应用场景解析

《Java缓存框架Caffeine应用场景解析》文章介绍Caffeine作为高性能Java本地缓存框架,基于W-TinyLFU算法,支持异步加载、灵活过期策略、内存安全机制及统计监控,重点解析其... 目录一、Caffeine 简介1. 框架概述1.1 Caffeine的核心优势二、Caffeine 基础2

使用Node.js和PostgreSQL构建数据库应用

《使用Node.js和PostgreSQL构建数据库应用》PostgreSQL是一个功能强大的开源关系型数据库,而Node.js是构建高效网络应用的理想平台,结合这两个技术,我们可以创建出色的数据驱动... 目录初始化项目与安装依赖建立数据库连接执行CRUD操作查询数据插入数据更新数据删除数据完整示例与最佳

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl