财经数据分析(第一周笔记整理)

2024-04-02 14:18

本文主要是介绍财经数据分析(第一周笔记整理),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据挖掘任务主要分为两种:描述性任务预测性任务

1.描述性任务
定义描述性任务将发掘数据中潜在的规律,找出目前可以理解与描述数据集中数据之间的联系,并刻画数据集中数据的一般特性。
描述性任务一般采用的挖掘步骤:业务理解、数据理解、数据准备(即对数据进行预处理、生成相关特征)、模型建立(即属性之间的相关性分析、关联规则分析、聚类分析等)、模型评估。

下面对这几个挖掘步骤作为详细解释
1)业务理解:确定待解决的问题(如电信用户信用度逐年下降,产品销售量逐年下降)
2)数据理解:①收集原始数据②描述数据(即对数据属性进行文字描述。产生数据描述报告)③探索数据(对数据进行基本 分析,验证数据质量,从而挖出更有用的信息,为进一步的研究指明方向,一般用可视化的方式展示,如数据分布的情况、数据的最大最小值、数据的平均值)
3)数据准备:①选择数据(并不是所有数据都适合挖掘)②清理数据(去除噪声及离群点等)③构造数据(生成新的字段或记录,如泰坦尼克号中根据乘客称谓生成的姓氏或称谓)④集成数据(对相关数据进行合并,如泰坦尼克号中将父母儿女数与兄弟姐妹数合并成家庭总人数)⑤格式化数据(使之适合数据挖掘的需要,如归一化)
4)模型建立:①选择建模技术②产生测试方案(从技术角度分析如何对模型效果进行检验)③构建模型(完成模型参数的设定,建立模型)④评估模型(对模型使用进行评价以及对各个参数做调整)

在基于规则的分类方法中有直接生成规则方法和间接生成规则方法两种,其中决策树就是间接规则的分类方法(如C5.0),在解决描述性任务时,也会用到C5.0 (C4.5算法的升级版),主要是为了产生可描述的规则,如男性且有房已婚的人不会拖欠贷款。基于规则的分类器一大优点为可解释性强

2.预测性任务
定义:通过对历史数据进行挖掘,从而对未来或其他不确定的事件进行预测

一般做预测分析时,会将数据分为两大部分。一部分是训练数据,用于构建模型,一部分是测试数据,用于检验模型。但是,有时候模型的构建过程中也需要检验模型,辅助模型构建,所以会将训练数据在分为两个部分:1)训练数据;2)验证数据(Validation Data)。验证数据用于负责模型的构建。典型的例子是用K-Fold Cross Validation裁剪决策树,求出最优叶节点数,防止过渡拟合。即
训练数据(Test Data):用于模型构建
验证数据(Validation Data):可选,用于辅助模型构建,可以重复使用。
测试数据(Test Data):用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合

3.其他小知识
1)决策树最大的优点是可解释性强,最大的缺点是容易过拟合,拥有不稳定性
2)弱分类器:分类器受数据集中的噪声影响较大(如决策树、神经网络)
3)对弱分类器可采用多模型融合/集成学习/多模型组合技术将多个弱分类器合成一个强分类器

对于分类预测性任务,谈谈集成学习/组合学习的方法有哪些?
第1种情况,从实例选择即从数据集的行的选择出发,可以有装袋(Bagging)(并行,即可以同时进行,因为是随机抽样,大家的权重相同),提升(Boosting)(序列,等第一个分类器生成后,根据其错误实例和未投到的实例要调整下一轮抽样的各个实例权重)
第2种情况:从特征选择(列的选择)上来说,有随机森林方法,即在特别多的特征下,可以通过特征选择来建立多棵决策树,形成森林,因为是随机选择的特征,所以叫随机森林,所以是并行集成方法
第3种情况:通过调整参数产生多个基预测模型,如神经网络的构建的网络层数和每层的隐含节点数都会对产生不同的模型,进而影响预测结果。因此还可以通过调参来产生多个模型,从而多模型组合来决定最终预测结果。
第4种情况,对于多分类预测,我们可以通过构建多个二分类预测模型,通过统计基分类器的投票数来完成分类。

基分类器又如何组合决定最终的预测结果呢?有哪些方法
① 投票法:用于分类问题,由多个学习器投票,哪个类别最多就是哪个,少数服从多数,如果出现数量相同,那就在相同中随机选择一个;
② 平均法:用于回归预测问题,对学习器的结果求算法平均,得到最终的预测结果;
③ stack法:把基学习器称为初级学习器,把用来组合的学习器称为次级学习器。Stacking 先从初始数据集训练出初级学习器,再把初级学习器的输出组合成新的数据集,用于训练次级学习器来得到最终结果。

这篇关于财经数据分析(第一周笔记整理)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/870209

相关文章

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)

《MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)》掌握多表联查(INNERJOIN,LEFTJOIN,RIGHTJOIN,FULLJOIN)和子查询(标量、列、行、表子查询、相关/非相关、... 目录第一部分:多表联查 (JOIN Operations)1. 连接的类型 (JOIN Types)

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

JAVA数组中五种常见排序方法整理汇总

《JAVA数组中五种常见排序方法整理汇总》本文给大家分享五种常用的Java数组排序方法整理,每种方法结合示例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录前言:法一:Arrays.sort()法二:冒泡排序法三:选择排序法四:反转排序法五:直接插入排序前言:几种常用的Java数组排序

Spring Boot 常用注解整理(最全收藏版)

《SpringBoot常用注解整理(最全收藏版)》本文系统整理了常用的Spring/SpringBoot注解,按照功能分类进行介绍,每个注解都会涵盖其含义、提供来源、应用场景以及代码示例,帮助开发... 目录Spring & Spring Boot 常用注解整理一、Spring Boot 核心注解二、Spr

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

Mysql中深分页的五种常用方法整理

《Mysql中深分页的五种常用方法整理》在数据量非常大的情况下,深分页查询则变得很常见,这篇文章为大家整理了5个常用的方法,文中的示例代码讲解详细,大家可以根据自己的需求进行选择... 目录方案一:延迟关联 (Deferred Join)方案二:有序唯一键分页 (Cursor-based Paginatio

Mysql中InnoDB与MyISAM索引差异详解(最新整理)

《Mysql中InnoDB与MyISAM索引差异详解(最新整理)》InnoDB和MyISAM在索引实现和特性上有差异,包括聚集索引、非聚集索引、事务支持、并发控制、覆盖索引、主键约束、外键支持和物理存... 目录1. 索引类型与数据存储方式InnoDBMyISAM2. 事务与并发控制InnoDBMyISAM

StarRocks索引详解(最新整理)

《StarRocks索引详解(最新整理)》StarRocks支持多种索引类型,包括主键索引、前缀索引、Bitmap索引和Bloomfilter索引,这些索引类型适用于不同场景,如唯一性约束、减少索引空... 目录1. 主键索引(Primary Key Index)2. 前缀索引(Prefix Index /

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题: