李航机器学习 | (7) 统计学习方法(第2版)笔记 --- 朴素贝叶斯习题与编程作业

本文主要是介绍李航机器学习 | (7) 统计学习方法(第2版)笔记 --- 朴素贝叶斯习题与编程作业,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

1. 用极大似然估计法推出朴素贝叶斯法中的概率估计公式:

 

2. 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式:

 

3. 贝叶斯估计求解过程

4. 自编程实现朴素贝叶斯算法,对上述表格中的训练数据进行分类。

"""
朴素贝叶斯算法的实现
2019/4/12
"""
import numpy as np
import pandas as pdclass NaiveBayes():def __init__(self, lambda_):self.lambda_ = lambda_  # 贝叶斯系数 取0时,即为极大似然估计 非0时为贝叶斯估计self.y_types_count = None  # y的(类型:数量)self.y_types_proba = None  # y的(类型:概率)self.x_types_proba = dict()  # (xi 的编号,xi的取值,y的类型):概率def fit(self, X_train, y_train):self.y_types = np.unique(y_train)  # y的所有取值类型X = pd.DataFrame(X_train)  # 转化成pandas DataFrame数据格式,下同y = pd.DataFrame(y_train)# y的(类型:数量)统计self.y_types_count = y[0].value_counts()# y的(类型:概率)计算self.y_types_proba = (self.y_types_count + self.lambda_) / (y.shape[0] + len(self.y_types) * self.lambda_)# (xi 的编号,xi的取值,y的类型):概率的计算for idx in X.columns:  # 遍历xifor j in self.y_types:  # 选取每一个y的类型p_x_y = X[(y == j).values][idx].value_counts()  # 选择所有y==j为真的数据点的第idx个特征的值,并对这些值进行(类型:数量)统计for i in p_x_y.index:  # 计算(xi 的编号,xi的取值,y的类型):概率self.x_types_proba[(idx, i, j)] = (p_x_y[i] + self.lambda_) / (self.y_types_count[j] + p_x_y.shape[0] * self.lambda_)def predict(self, X_new):res = []for y in self.y_types:  # 遍历y的可能取值p_y = self.y_types_proba[y]  # 计算y的先验概率P(Y=ck)p_xy = 1for idx, x in enumerate(X_new):p_xy *= self.x_types_proba[(idx, x, y)]  # 计算P(X=(x1,x2...xd)/Y=ck)res.append(p_y * p_xy)for i in range(len(self.y_types)):print("[{}]对应概率:{:.2%}".format(self.y_types[i], res[i]))# 返回最大后验概率对应的y值return self.y_types[np.argmax(res)]def main():X_train = np.array([[1, "S"],[1, "M"],[1, "M"],[1, "S"],[1, "S"],[2, "S"],[2, "M"],[2, "M"],[2, "L"],[2, "L"],[3, "L"],[3, "M"],[3, "M"],[3, "L"],[3, "L"]])#标签y_train = np.array([-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1])#创建朴素贝叶斯分类器对象clf = NaiveBayes(lambda_=0.2)#训练 计算先验概率和条件概率clf.fit(X_train, y_train)#预测样本X_new = np.array([2, "S"])#预测y_predict = clf.predict(X_new)print("{}被分类为:{}".format(X_new, y_predict))if __name__ == "__main__":main()

 

5. 试分别调用 sklearn.naive_bayes 的 GaussianNB、BernoulliNB、MultinomialNB 模块,对上述表格中训练数据进行分类。

之前碰到的都是特征是离散变量情形,如果特征是连续变量,如身高(如果训练集身高有175,177,如果把他当作离散变量来做,会有问题,比如预测时出现身高=176.5就没办法做了),此时要使用高斯分布。

"""
朴素贝叶斯算法sklearn实现
2019/4/15
"""import numpy as np
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB
from sklearn import preprocessing  # 预处理def main():X_train = np.array([[1, "S"],[1, "M"],[1, "M"],[1, "S"],[1, "S"],[2, "S"],[2, "M"],[2, "M"],[2, "L"],[2, "L"],[3, "L"],[3, "M"],[3, "M"],[3, "L"],[3, "L"]])y_train = np.array([-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1])#对于离散型特征,我们要进行预处理 使每一个样本在每个特征上的取值为0或1#比如第一个样本 的特征为1,S;其中第一个特征有三个取值 第二个特征也有三个取值#转换后的特征为 1 0 0 0 0 1 (分别对应 1 2 3 L M S)enc = preprocessing.OneHotEncoder(categories='auto')enc.fit(X_train)X_train = enc.transform(X_train).toarray()print(X_train)print("---------------")clf = MultinomialNB(alpha=0.0000001) #离散变量clf.fit(X_train, y_train)X_new = np.array([[2, "S"]]) #对预测样本也做相同的转换X_new = enc.transform(X_new).toarray() y_predict = clf.predict(X_new)print("{}被分类为:{}".format(X_new, y_predict))print("---------------")print(clf.predict_proba(X_new))  #归一化概率if __name__ == "__main__":main()

 

 

这篇关于李航机器学习 | (7) 统计学习方法(第2版)笔记 --- 朴素贝叶斯习题与编程作业的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/377876

相关文章

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

MySQL的JDBC编程详解

《MySQL的JDBC编程详解》:本文主要介绍MySQL的JDBC编程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言一、前置知识1. 引入依赖2. 认识 url二、JDBC 操作流程1. JDBC 的写操作2. JDBC 的读操作总结前言本文介绍了mysq

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

JavaScript中的高级调试方法全攻略指南

《JavaScript中的高级调试方法全攻略指南》什么是高级JavaScript调试技巧,它比console.log有何优势,如何使用断点调试定位问题,通过本文,我们将深入解答这些问题,带您从理论到实... 目录观点与案例结合观点1观点2观点3观点4观点5高级调试技巧详解实战案例断点调试:定位变量错误性能分

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法

《JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法》:本文主要介绍JavaScript中比较两个数组是否有相同元素(交集)的三种常用方法,每种方法结合实例代码给大家介绍的非常... 目录引言:为什么"相等"判断如此重要?方法1:使用some()+includes()(适合小数组)方法2

504 Gateway Timeout网关超时的根源及完美解决方法

《504GatewayTimeout网关超时的根源及完美解决方法》在日常开发和运维过程中,504GatewayTimeout错误是常见的网络问题之一,尤其是在使用反向代理(如Nginx)或... 目录引言为什么会出现 504 错误?1. 探索 504 Gateway Timeout 错误的根源 1.1 后端

MySQL 表空却 ibd 文件过大的问题及解决方法

《MySQL表空却ibd文件过大的问题及解决方法》本文给大家介绍MySQL表空却ibd文件过大的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录一、问题背景:表空却 “吃满” 磁盘的怪事二、问题复现:一步步编程还原异常场景1. 准备测试源表与数据

python 线程池顺序执行的方法实现

《python线程池顺序执行的方法实现》在Python中,线程池默认是并发执行任务的,但若需要实现任务的顺序执行,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋... 目录方案一:强制单线程(伪顺序执行)方案二:按提交顺序获取结果方案三:任务间依赖控制方案四:队列顺序消