【课堂笔记】阿里云基于机器学习的客户流失预警分析

本文主要是介绍【课堂笔记】阿里云基于机器学习的客户流失预警分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

图片会抽空传的。
学习的东西：
1.客户流失预警的分析方法
2.流失预警分析中的关键技术
3.使用机器学习pai进行分析
4.任务：通信公司客户流失预警分析

客户流失：由于企业各种营销手段的实施，而导致客户和企业终止合作的现象
哪些客户易流失呢：以前是用经验模型的方法来分析，找一些对行业有理解的人自己归纳流失用户的特性。
现在是从数据中提取。从已有数据中找出客户的共性。

分析流程

应用：成熟的行业，更关注减少流失而不是拉新
通信：商业：金融：

机器学习及决策树
机器学习：对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么我们称这个计算机程序在从经验E学习。
通过大量做站，找到seo的方向，其实也是一种低效的机器学习手段。或者说当以计算机的速度来处理seo，就是机器学习的应用了。

常见类型：监督学习和无监督学习
一个有样本，一个没样本，但随着时间推移会得出一些大概率的结果。
分类模型：决策树

如何构建决策树

1、准备工作：
观察数据，明确自变量和因变量
自变量：客户的属性
因变量：最终结果

明确信息度量方式：信息增益
熵：

案例：

从这里就可以知道按照什么方式来判断更好了
基尼系数：

明确分支终止条件
纯度：
记录条数：
循环次数：

构建决策树：
流程：

案例：

决策树算法系列：
一、ID3系列迭代树3代
核心是信息熵，根据信息增益决定树的节点

拥有的问题：
信息度量不合理：倾向于选择取值多的字段
输入类型单一：离散型
不做剪枝，容易过拟合
c4.5:
用信息增益率代替信息增益
能对连续属性进行离散化，对不完整数据进行处理
进行剪枝

c50:
使用了boosting
前修剪、后修剪

二、CART

集成学习：针对同一数据集，训练多种学习器，来解决同一问题
bagging：
有放回抽样构建多个子集
训练多个分类器
最终结果由各分类器结果投票得出
实现非常简单

要注意分类器之间也是有共通点的，这里的计算是指的所有分类器之间没有任何联系的情况下。
boosting:
重复使用一类学习器来修改训练集
每次训练后根据结果调整样本的权重
每个学习器加权后的线性组合即为最终结果

adaboost

图中变大的代表加了权
stacking:
由两极组成，第一级为初级学习期，第二级为高级学习器
第一级学习器的输出作为第二级学习器的输入。

随机森林 randomforest
由许多决策树组成，树生成的时候采用了随机的方法
smart bagging：不单按行取值，还会按列取值
生成步骤：
随机采样，生成多个样本集

对每个样本集构建决策树
优点：
可以处理多分类
不会过拟合
容易实现并行
对数据集容错能力强

重要概念：
特征工程：最大限度地从原始数据中提取特征以供算法和模型使用
数据预处理：标准化、缩放、缺失值、变换、编码等
特征产生：结合业务数据，派生新的特征
特征选择：通过各种统计量、模型评分等，筛选合适的特征
降维：PCA、LDA等减少特征个数
能用更少的模型得出好的结果，就尽量不要用太多的模型。模型越多，受影响越多。

模型评估:解释&泛华
解释：模型能够很好的解释数据集叫做解释型模型
泛化：把一个模型使用在新的数据集上，如果表现非常糟糕，说明泛化能力差（顾名思义。使用广泛化）
过拟合：在原来的数据集表现的非常好，在另一个数据集上又太差了。这就是泛化能力差，也即是过拟合