终于把大数据类产品全流程解释清楚了

2023-10-17 03:40

本文主要是介绍终于把大数据类产品全流程解释清楚了,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

你点开这文章,说明你清晰知道了数据才是一切的基础。人工智能、机器学习、大数据等应用的基础都是基于这样的一个流程,只是说运用领域不同,那么偏重点不同。

本文从数据采集到数据报告,详细说明了大数据运用过程与环节,为大家树立整体的意识。

数据采集(DAQ)

数据采集,又称数据获取,这就是数据的来源,一般数据是来源于自身业务开展中的信息,比如自己的数据库日志,交易流水等;另外就是除了自身数据外,可以使用第三方外部网络数据,比如爬虫抓取、引用外部API接口等。

数据预处理

不管是内部数据,还是外部数据,在实际场景中,结构化数据与非结构化数据都是大量存在的,并且直接面临的问题就是数据的多、杂、乱、错、冲突、歧义等情况。针对这些第一手数据进行整合优化,根据相应的目标清洗垃圾,统一格式规范,验证数据可靠性,筛选对应需求的数据。

终于把大数据类产品全流程解释清楚了

打开今日头条,查看更多精彩图片

目前存在四种主流的数据预处理技术

1、数据清理:

数据清理例程通过填写缺失值、光滑噪声数据、识别或者删除离群点并且解决不一致性来“清理数据”。

2、数据集成:

数据集成过程将来自多个数据源的数据集成到一起。

3、数据规约:

数据规约的目的是得到数据集的简化表示。数据规约包括维规约和数值规约。

4、数据变换:

据变换使用规范化、数据离散化和概念分层等方法使得数据的挖掘可以在多个抽象层上进行。数据变换操作是引导数据挖掘过程成功的附加预处理过程。

数据清理方法

缺失值

对于缺失值的处理一般是想法设法把它补上,或者干脆弃之不用。一般处理方法有:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组属同一类的所有样本的属性均值或中位数、使用最可能的值填充缺失值

噪声数据

噪声是被测量变量的随机误差或方差。去除噪声、使数据“光滑”的技术:分箱、回归、离群点分析

数据清理的过程

数据清理过程主要包括数据预处理、确定清理方法、校验清理方法、执行清理工具和数据归档。数据清理的原理是通过分析“脏数据”产生的原因和存在形式,利用现有的技术手段和方法去清理“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。

数据清理的工具

采取高效的处理工具对数据进行处理。其中常用的工具有Excel、Access、SPSS Modeler、SAS、SPSS Statistics等。

数据分析

数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。

从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。

终于把大数据类产品全流程解释清楚了

数据统计

数据统计包括数据分析与结果分析,基本的分析方法有:

对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析对比从中挑选一定的模型。

从上面我们可以看出,统计学概念在数据分析中的作用:比如方差、标准差、相关系数、均方根误差等; 集中数据分析的基本方法:假设检验、回归分析、误差分析等; 统计图形分析:散点图、直方图等来探索数据中隐藏的规律; 数据库以及数据整理。

正如我上文所说,再数据分析的过程中,应用场景不同,侧重点不同,那么算法也不同,深度分析就会是数据挖掘;不需要人的参与,那么就变成了人工智能,在整个过程中,更多涉机器学习,算法训练等领域的内容,后续展开说明。

数据呈现

数据呈现,通过一些可视化图形或者报表形式进行展示,增强对分析结果的理解。可以以报表形式或PPT形式展示结果。针对结果进行数据再分析,使得整个业务环节形成闭环。

数据应用

举例:知识图谱

终于把大数据类产品全流程解释清楚了

如何成为一名出色的数据PD/PM/leader

①懂业务。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。

②懂管理。一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。

③懂分析。指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。

④懂工具。指掌握数据分析相关的常用工具。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,我们不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。

⑤懂设计。懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。

这篇关于终于把大数据类产品全流程解释清楚了的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/222694

相关文章

使用Python开发一个Ditto剪贴板数据导出工具

《使用Python开发一个Ditto剪贴板数据导出工具》在日常工作中,我们经常需要处理大量的剪贴板数据,下面将介绍如何使用Python的wxPython库开发一个图形化工具,实现从Ditto数据库中读... 目录前言运行结果项目需求分析技术选型核心功能实现1. Ditto数据库结构分析2. 数据库自动定位3

pandas数据的合并concat()和merge()方式

《pandas数据的合并concat()和merge()方式》Pandas中concat沿轴合并数据框(行或列),merge基于键连接(内/外/左/右),concat用于纵向或横向拼接,merge用于... 目录concat() 轴向连接合并(1) join='outer',axis=0(2)join='o

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Spring Boot 中的默认异常处理机制及执行流程

《SpringBoot中的默认异常处理机制及执行流程》SpringBoot内置BasicErrorController,自动处理异常并生成HTML/JSON响应,支持自定义错误路径、配置及扩展,如... 目录Spring Boot 异常处理机制详解默认错误页面功能自动异常转换机制错误属性配置选项默认错误处理

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

Spring Boot从main方法到内嵌Tomcat的全过程(自动化流程)

《SpringBoot从main方法到内嵌Tomcat的全过程(自动化流程)》SpringBoot启动始于main方法,创建SpringApplication实例,初始化上下文,准备环境,刷新容器并... 目录1. 入口:main方法2. SpringApplication初始化2.1 构造阶段3. 运行阶