python机器学习之降维算法PCA(高维数据的可视化,鸢尾花案例)

本文主要是介绍python机器学习之降维算法PCA(高维数据的可视化,鸢尾花案例),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

高维数据的可视化

n_components是我们降维后需要的维度,即降维后需要保留的特征数量,降维流程中第二步里需要确认的k值,一般输入[0, min(X.shape)]范围中的整数。

调用库和模块

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

提取数据集

iris = load_iris()
x = iris.data
y = iris.targetx.shape#作为数据表或特征矩阵,x是几维
import pandas as pd
pd.DataFrame(x)

在这里插入图片描述
建模 调用PCA

pca = PCA(n_components=2)#实例化
pca = pca.fit(x)#拟合模型
x_dr = pca.transform(x)#获取新矩阵
#也可以一步到位
#x_dr = PCA(2).fit_transform(x)
x_dr

在这里插入图片描述
可视化

x_dr[y ==0,0]#采用布尔索引#画出分类图
plt.figure()#创建一个画布
plt.scatter(x_dr[y==0,0],x_dr[y==0,1],c="red",label = iris.target_names[0])
plt.scatter(x_dr[y==1,0],x_dr[y==1,1],c = "black",label = iris.target_names[1])
plt.scatter(x_dr[y==2,0],x_dr[y==2,1],c="orange",label = iris.target_names[2])
plt.legend()#显示图例
plt.title("PCA of IRIS dataset")#显示标题
plt.show()

在这里插入图片描述
也可以调用循环.

color = ["red","black","orange"]for i in [0,1,2]:plt.scatter(x_dr[y==i,0],x_dr[y==i,1],c=color[i],alpha = 0.7#透明度,label = iris.target_names[i])
plt.legend()#显示图例
plt.title("PCA of IRIS dataset")#显示标题
plt.show()

在这里插入图片描述
探索降维后的数据

pca.explained_variance_# 查看降维后每个新特征向量上所带的信息量大小(方差大小)
pca.explained_variance_ratio_#查看降维后每个新特征向量所占的信息量占原始数据总信息量的百分比
pca.explained_variance_ratio_.sum()#总占比

在这里插入图片描述
选择最好的n_components:累积可解释方差贡献率曲线

当参数components中不填写任何值,则默认返回min(X.shape)个特征,一般来说,样本量都会大于特征数目,所以什么都不填就相当于转换了新特征空间,但没有减少特征的个数。一般来说,不会使用这种输入方式。但我们却可以使用这种输入方式来画出累计可解释方差贡献率曲线,以此选择最好的n_components的整数取值。

累积可解释方差贡献率曲线是一条以降维后保留的特征个数为横坐标,降维后新特征矩阵捕捉到的可解释方差贡献率为纵坐标的曲线,能够帮助我们决定n_components最好的取值。

import numpy as np
np.cumsum(pca_line.explained_variance_ratio_)#求累加和#选择最好的n_components:累加可解释方差贡献率曲线
plt.plot([1,2,3,4],np.cumsum(pca_line.explained_variance_ratio_))
plt.xticks([1,2,3,4])#更改x轴坐标
plt.xlabel("number of components after ")#横坐标
plt.ylabel("cumulative explained variance ")#纵坐标
plt.show()

在这里插入图片描述
最大似然估计自选超参数

#最大似然估计自选超参数
pca_mle = PCA(n_components="mle")
pca_mle = pca_mle.fit(x)
x_mle = pca_mle.transform(x)
x_mle#系统帮我们自动选择了3个特征pca_mle.explained_variance_ratio_.sum()#查看降维后每个新特征向量所占的信息量占原始数据总信息量的百

在这里插入图片描述
按信息量占比选超参数

pca_f = PCA(n_components=0.97,svd_solver="full")
pca_f = pca_f.fit(x)#拟合模型
x_f = pca_f.transform(x)#导出结果
x_f  #二维pca_f.explained_variance_ratio_

在这里插入图片描述

这篇关于python机器学习之降维算法PCA(高维数据的可视化,鸢尾花案例)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/568610

相关文章

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

python获取cmd环境变量值的实现代码

《python获取cmd环境变量值的实现代码》:本文主要介绍在Python中获取命令行(cmd)环境变量的值,可以使用标准库中的os模块,需要的朋友可以参考下... 前言全局说明在执行py过程中,总要使用到系统环境变量一、说明1.1 环境:Windows 11 家庭版 24H2 26100.4061

Python中文件读取操作漏洞深度解析与防护指南

《Python中文件读取操作漏洞深度解析与防护指南》在Web应用开发中,文件操作是最基础也最危险的功能之一,这篇文章将全面剖析Python环境中常见的文件读取漏洞类型,成因及防护方案,感兴趣的小伙伴可... 目录引言一、静态资源处理中的路径穿越漏洞1.1 典型漏洞场景1.2 os.path.join()的陷

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

Python中bisect_left 函数实现高效插入与有序列表管理

《Python中bisect_left函数实现高效插入与有序列表管理》Python的bisect_left函数通过二分查找高效定位有序列表插入位置,与bisect_right的区别在于处理重复元素时... 目录一、bisect_left 基本介绍1.1 函数定义1.2 核心功能二、bisect_left 与

Python使用Tkinter打造一个完整的桌面应用

《Python使用Tkinter打造一个完整的桌面应用》在Python生态中,Tkinter就像一把瑞士军刀,它没有花哨的特效,却能快速搭建出实用的图形界面,作为Python自带的标准库,无需安装即可... 目录一、界面搭建:像搭积木一样组合控件二、菜单系统:给应用装上“控制中枢”三、事件驱动:让界面“活”

VSCode设置python SDK路径的实现步骤

《VSCode设置pythonSDK路径的实现步骤》本文主要介绍了VSCode设置pythonSDK路径的实现步骤,包括命令面板切换、settings.json配置、环境变量及虚拟环境处理,具有一定... 目录一、通过命令面板快速切换(推荐方法)二、通过 settings.json 配置(项目级/全局)三、

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

Python struct.unpack() 用法及常见错误详解

《Pythonstruct.unpack()用法及常见错误详解》struct.unpack()是Python中用于将二进制数据(字节序列)解析为Python数据类型的函数,通常与struct.pa... 目录一、函数语法二、格式字符串详解三、使用示例示例 1:解析整数和浮点数示例 2:解析字符串示例 3:解

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio