Python从0到100(五十七):机器学习-主成分分析机

2024-09-03 01:12

本文主要是介绍Python从0到100(五十七):机器学习-主成分分析机,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

主成分分析是⼀种常⽤的降维技术,⽤于将⾼维数据集投影到低维空间中,同时保留数据集的主要特征。PCA通过寻找数据中最重要的⽅向(主成分),并将数据投影到这些⽅向上来实现降维。

1.基本原理

1、数据中心化:⾸先,对原始数据进⾏中⼼化处理,即将每个特征的均值减去每个数据点的对应特征值,以确保数据的均值为零。
2、协方差矩阵:然后,计算数据的协⽅差矩阵,该矩阵表示了不同特征之间的关联性。
3、特征值分解:对协⽅差矩阵进⾏特征值分解,找到其特征值和特征向量。
4、选择主成分:选择具有最⼤特征值的特征向量,这些特征向量构成了数据在低维⼦空间上的新坐标轴,被称为主成分。
5、投影:将原始数据投影到所选的主成分上,从⽽实现数据的降维。

2.公式模型

1、数据中⼼化:对于⼀个包含m个样本和n个特征的数据矩阵 ,⾸先计算每个特征的均值 ,然后进⾏中⼼化处理,得到中⼼化的数据矩阵 :
在这里插入图片描述
2、协方差矩阵:计算中⼼化数据的协⽅差矩阵C ,m其中 是样本数:
在这里插入图片描述

3、特征值分解:对协⽅差矩阵C进⾏特征值分解,得到特征值y1,y2,...,yn和对应的特征向量v1,v2,...,vn。特征向量vi代表数据在新的主成分⽅向上的投影。
4、选择主成分:通常,选择前k个特征值对应的特征向量,它们构成了数据的主成分。这些特征向量通常按照特征值的大小降序排列。
5、投影:将原始数据矩阵X投影到所选的主成分上,得到降维后的数据矩阵Y
Y=VX
其中,V 是包含选定主成分特征向量的矩阵。
通过PCA,可以将⾼维数据映射到低维空间,从⽽减少了数据的维度。这有助于数据可视化、去除冗余特征、加速机器学习模型的训练,并提⾼模型的泛化性能。选择合适的降维维度(主成分数量)是PCA的⼀个关键参数,通常需要根据问题和性能需求进⾏调整。

3.优缺点

优点:
1. 降低数据维度:PCA能够将⾼维数据降维到较低维度,减少数据存储和计算成本。
2. 保留数据主要特征:PCA通过保留数据集中⽅差最⼤的⽅向,尽可能地保留了数据的主要特征。
3. 减少数据噪⾳:PCA可以将数据投影到主成分上,减少数据中的噪⾳和冗余信息。

缺点:

1. 对线性关系敏感:PCA假设数据是线性相关的,对⾮线性关系的数据降维效果可能不佳。
6. 可解释性差:PCA得到的主成分通常难以解释其含义,因为它是数据的线性组合。
7. 对异常值敏感:PCA对异常值较为敏感,可能会影响主成分的计算结果。

4.适用场景

主成分分析适⽤于以下场景:

  1. 数据维度较⾼:当数据维度较⾼时,可以使⽤PCA将数据降维到较低维度。
  2. 数据存在多重共线性:当数据中存在多重共线性(即特征之间存在线性相关性)时,PCA可以减少特征之间
    的冗余信息。
  3. 数据可视化:PCA可以将⾼维数据可视化到⼆维或三维空间中,帮助⼈们理解数据的结构和特征。

主成分分析可以帮助我们减少数据的维度并保留数据的主要特征。然⽽,在使⽤PCA时需要注意数据的线性关系和异常值的影响

5.手写数字识别数据集主成分分析

使⽤⼿写数字识别数据集(MNIST dataset)进⾏主成分分析,并展示降维后的数据可视化结果:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
# 加载⼿写数字识别数据集
digits = load_digits()
X = digits.data
y = digits.target
# 构建PCA模型并拟合数据
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
# 可视化降维后的数据
plt.figure(figsize=(10, 8))
scatter = plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', s=20, alpha=0.7)
plt.colorbar(scatter)
plt.title('2D PCA Visualization of MNIST Dataset')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()

⾸先加载了⼿写数字识别数据集,并使⽤PCA将数据降维到2维空间。然后绘制降维后的数据的散点图,其中每个点代表⼀个⼿写数字样本,不同颜⾊代表不同的数字类别。
在这里插入图片描述

这篇关于Python从0到100(五十七):机器学习-主成分分析机的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1131601

相关文章

基于Python+PyQt5打造一个跨平台Emoji表情管理神器

《基于Python+PyQt5打造一个跨平台Emoji表情管理神器》在当今数字化社交时代,Emoji已成为全球通用的视觉语言,本文主要为大家详细介绍了如何使用Python和PyQt5开发一个功能全面的... 目录概述功能特性1. 全量Emoji集合2. 智能搜索系统3. 高效交互设计4. 现代化UI展示效果

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Python中OpenCV与Matplotlib的图像操作入门指南

《Python中OpenCV与Matplotlib的图像操作入门指南》:本文主要介绍Python中OpenCV与Matplotlib的图像操作指南,本文通过实例代码给大家介绍的非常详细,对大家的学... 目录一、环境准备二、图像的基本操作1. 图像读取、显示与保存 使用OpenCV操作2. 像素级操作3.

Python使用FFmpeg实现高效音频格式转换工具

《Python使用FFmpeg实现高效音频格式转换工具》在数字音频处理领域,音频格式转换是一项基础但至关重要的功能,本文主要为大家介绍了Python如何使用FFmpeg实现强大功能的图形化音频转换工具... 目录概述功能详解软件效果展示主界面布局转换过程截图完成提示开发步骤详解1. 环境准备2. 项目功能结

Apache 高级配置实战之从连接保持到日志分析的完整指南

《Apache高级配置实战之从连接保持到日志分析的完整指南》本文带你从连接保持优化开始,一路走到访问控制和日志管理,最后用AWStats来分析网站数据,对Apache配置日志分析相关知识感兴趣的朋友... 目录Apache 高级配置实战:从连接保持到日志分析的完整指南前言 一、Apache 连接保持 - 性

使用Python实现Windows系统垃圾清理

《使用Python实现Windows系统垃圾清理》Windows自带的磁盘清理工具功能有限,无法深度清理各类垃圾文件,所以本文为大家介绍了如何使用Python+PyQt5开发一个Windows系统垃圾... 目录一、开发背景与工具概述1.1 为什么需要专业清理工具1.2 工具设计理念二、工具核心功能解析2.

Python实现一键PDF转Word(附完整代码及详细步骤)

《Python实现一键PDF转Word(附完整代码及详细步骤)》pdf2docx是一个基于Python的第三方库,专门用于将PDF文件转换为可编辑的Word文档,下面我们就来看看如何通过pdf2doc... 目录引言:为什么需要PDF转Word一、pdf2docx介绍1. pdf2docx 是什么2. by

Python函数返回多个值的多种方法小结

《Python函数返回多个值的多种方法小结》在Python中,函数通常用于封装一段代码,使其可以重复调用,有时,我们希望一个函数能够返回多个值,Python提供了几种不同的方法来实现这一点,需要的朋友... 目录一、使用元组(Tuple):二、使用列表(list)三、使用字典(Dictionary)四、 使

Python程序的文件头部声明小结

《Python程序的文件头部声明小结》在Python文件的顶部声明编码通常是必须的,尤其是在处理非ASCII字符时,下面就来介绍一下两种头部文件声明,具有一定的参考价值,感兴趣的可以了解一下... 目录一、# coding=utf-8二、#!/usr/bin/env python三、运行Python程序四、