Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

2024-06-08 10:28

本文主要是介绍Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

目录

Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

一、简单介绍

二、scikit-learn 基础

1、安装 scikit-learn

2、导入 scikit-learn

3、数据准备

4、数据分割

5、训练模型

5.1 线性回归

5.2 逻辑回归

5.3 K 近邻算法 (KNN)

5.4 决策树

5.5 随机森林

6、模型评估

6.1 混淆矩阵

6.2 ROC 曲线

7、特征选择

7.1 使用基于树的特征选择

8、超参数调优

附录

一、scikit-learn 学习文档地址

二、scikit-learn 功能特点介绍

scikit-learn 的特点

scikit-learn 提供的主要功能

1. 数据预处理

2. 分类算法

3. 回归算法

4. 聚类算法

5. 降维算法

6. 模型选择与评估

示例:使用 scikit-learn 进行简单的分类任务

三、scikit-learn 提供的 内置数据集

示例:如何加载内置数据集


一、简单介绍

Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。Python是一种解释型脚本语言,可以应用于以下领域: Web 和 Internet开发、科学计算和统计、人工智能、教育、桌面界面开发、软件开发、后端开发、网络爬虫。

Python 机器学习是利用 Python 编程语言中的各种工具和库来实现机器学习算法和技术的过程。Python 是一种功能强大且易于学习和使用的编程语言,因此成为了机器学习领域的首选语言之一。Python 提供了丰富的机器学习库,如Scikit-learn、TensorFlow、Keras、PyTorch等,这些库包含了许多常用的机器学习算法和深度学习框架,使得开发者能够快速实现、测试和部署各种机器学习模型。

Python 机器学习涵盖了许多任务和技术,包括但不限于:

  1. 监督学习:包括分类、回归等任务。
  2. 无监督学习:如聚类、降维等。
  3. 半监督学习:结合了有监督和无监督学习的技术。
  4. 强化学习:通过与环境的交互学习来优化决策策略。
  5. 深度学习:利用深度神经网络进行学习和预测。

通过 Python 进行机器学习,开发者可以利用其丰富的工具和库来处理数据、构建模型、评估模型性能,并将模型部署到实际应用中。Python 的易用性和庞大的社区支持使得机器学习在各个领域都得到了广泛的应用和发展。

二、scikit-learn 基础

scikit-learn 是一个强大的 Python 机器学习库,提供了各种常见的机器学习算法和工具。它易于使用,适合初学者和专家。本文将介绍 scikit-learn 的基本概念和操作。

1、安装 scikit-learn

在开始之前,请确保已安装 scikit-learn。您可以使用以下命令安装:

pip install scikit-learn

2、导入 scikit-learn

在使用 scikit-learn 之前,需要先导入它。

import sklearn

3、数据准备

scikit-learn 提供了许多内置的数据集,可以方便地进行学习和测试。我们将使用鸢尾花数据集进行演示。

from sklearn.datasets import load_iris
import pandas as pd# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 查看前几行数据
print(df.head())
# 打印结果:
#   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  target
# 0               5.1               3.5                1.4               0.2       0
# 1               4.9               3.0                1.4               0.2       0
# 2               4.7               3.2                1.3               0.2       0
# 3               4.6               3.1                1.5               0.2       0
# 4               5.0               3.6                1.4               0.2       0

请注意,实际输出结果会根据 load_iris() 函数加载的鸢尾花数据集的具体内容而有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集,该数据集包含150个样本,每个样本有4个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和一个目标变量(鸢尾花种类)。
  • pd.DataFrame() 创建了一个包含数据集特征和目标的 DataFrame。
  • print(df.head()) 打印了 DataFrame 的前五行数据。这为我们提供了数据集的一个快速预览,包括特征值和对应的目标类别。

4、数据分割

将数据分为训练集和测试集是机器学习模型训练的必要步骤。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)print("训练集大小:", X_train.shape)
# 打印结果:
# 训练集大小: (120, 4)print("测试集大小:", X_test.shape)
# 打印结果:
# 测试集大小: (30, 4)

请注意,实际输出结果会根据 train_test_split() 函数分割数据集的方式而有所不同,但由于我们设置了 test_size=0.2random_state=42,每次执行代码时结果应该是一致的。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集,其中测试集占总数据集的20%,训练集占80%。random_state=42 确保了每次分割的结果都是一致的。
  • print() 函数用于打印训练集和测试集的大小,X_train.shapeX_test.shape 分别提供了训练集和测试集的维度信息。由于原始数据集有150个样本,所以训练集应该有120个样本,测试集有30个样本,每个样本有4个特征。

5、训练模型

5.1 线性回归

线性回归是一种简单的回归算法,用于预测连续值。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
# 查看模型性能
from sklearn.metrics import mean_squared_error# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = LinearRegression()# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)mse = mean_squared_error(y_test, y_pred)
print("均方误差:", mse)
# 打印结果:
# 均方误差: 0.03711379440797686

请注意,实际的均方误差(MSE)值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • LinearRegression() 创建了一个线性回归模型,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • mean_squared_error() 计算了测试集的真实值和预测值之间的均方误差。
  • print() 函数用于打印均方误差的结果,这是评估模型性能的一个指标。

5.2 逻辑回归

逻辑回归是一种常用的分类算法,适用于二分类问题。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
# 查看模型性能
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = LogisticRegression(max_iter=200)# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • LogisticRegression() 创建了一个逻辑回归分类模型,max_iter=200 确保了模型能够收敛,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.3 K 近邻算法 (KNN)

K 近邻算法是一种简单的非参数分类算法。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = KNeighborsClassifier(n_neighbors=3)# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • KNeighborsClassifier() 创建了一个 K 近邻分类器模型,n_neighbors=3 表示选择最近的3个邻居进行投票,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.4 决策树

决策树是一种树形结构的分类和回归模型。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = DecisionTreeClassifier()# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • DecisionTreeClassifier() 创建了一个决策树分类器模型,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.5 随机森林

随机森林是一种集成学习方法,通过多个决策树的组合来提高性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = RandomForestClassifier(n_estimators=100)# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

6、模型评估

在机器学习中,模型评估是非常重要的一环。以下是一些常见的评估指标和方法。

6.1 混淆矩阵

混淆矩阵用于评估分类模型的性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = RandomForestClassifier(n_estimators=100)# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)# 绘制混淆矩阵
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap='Blues')
plt.title('Confusion Matrix')# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:混淆矩阵图已保存至 'Images/savedImage.png'plt.show()  # 显示混淆矩阵图

请注意,这段代码中没有直接的打印语句输出结果,但是注释中已经说明了每个步骤的作用和预期结果。具体来说:

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • confusion_matrix() 计算了测试集的真实值和预测值之间的混淆矩阵。
  • ConfusionMatrixDisplay()plot() 绘制了混淆矩阵的图表。
  • plt.savefig() 将混淆矩阵图保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示混淆矩阵图。

6.2 ROC 曲线

ROC 曲线用于评估二分类模型的性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, auc
from sklearn.preprocessing import label_binarize
from sklearn.multiclass import OneVsRestClassifier
import matplotlib.pyplot as plt
import numpy as np# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 将目标变量二值化
y_train = label_binarize(y_train, classes=[0, 1, 2])
y_test = label_binarize(y_test, classes=[0, 1, 2])
n_classes = y_train.shape[1]# 创建并训练模型
model = OneVsRestClassifier(RandomForestClassifier(n_estimators=100))
model.fit(X_train, y_train)# 预测
y_score = model.predict_proba(X_test)# 计算每个类别的 ROC 曲线和 AUC
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])roc_auc[i] = auc(fpr[i], tpr[i])# 绘制所有类别的 ROC 曲线
plt.figure()
colors = ['blue', 'green', 'red']
for i, color in zip(range(n_classes), colors):plt.plot(fpr[i], tpr[i], color=color, lw=2,label=f'ROC curve of class {i} (area = {roc_auc[i]:.2f})')plt.plot([0, 1], [0, 1], 'k--', lw=2)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve for Each Class')
plt.legend(loc='lower right')# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:ROC图表已保存至 'Images/savedImage.png'plt.show()  # 显示ROC图表

请注意,这段代码中没有直接的打印语句输出结果,但是注释中已经说明了每个步骤的作用和预期结果。具体来说:

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • label_binarize() 将目标变量转换为二进制形式,以便进行多类别的ROC曲线绘制。
  • OneVsRestClassifier() 创建了一个一对多的分类器模型,包装了随机森林分类器,fit() 方法用于训练模型。
  • predict_proba() 方法用于获取测试集的预测概率。
  • roc_curve()auc() 计算了每个类别的ROC曲线和AUC值。
  • plt.plot() 用于绘制每个类别的ROC曲线。
  • plt.savefig() 将ROC图表保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示ROC图表。

注意:由于 ROC 曲线和 AUC 只能用于二分类问题,而鸢尾花数据集是一个三分类问题。在这种情况下,您需要将多分类问题转换为多个二分类问题,可以使用 OneVsRestClassifierOneVsOneClassifier 来处理多分类问题,或者使用每个类的 ROC 曲线。

7、特征选择

特征选择是提高模型性能的重要步骤之一。

7.1 使用基于树的特征选择
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建随机森林模型
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)# 获取特征重要性
importances = model.feature_importances_
feature_names = X.columns# 绘制特征重要性图
plt.barh(range(len(importances)), importances, align='center')
plt.yticks(range(len(importances)), feature_names)
plt.title('Feature Importances')# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:特征重要性图已保存至 'Images/savedImage.png'plt.show()

请注意,我添加了range(len(importances))来为条形图提供位置,并使用plt.yticks()将特征名称设置为y轴的刻度标签。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • 通过model.feature_importances_获取特征重要性。
  • plt.barh() 绘制了特征重要性图。
  • plt.savefig() 将特征重要性图保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示特征重要性图。

8、超参数调优

使用网格搜索进行超参数调优,可以找到模型的最佳参数。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 定义参数网格
param_grid = {'n_neighbors': [3, 5, 7, 9]
}# 创建KNN模型
model = KNeighborsClassifier()# 进行网格搜索
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)# 输出最佳参数
print("最佳参数:", grid_search.best_params_)
# 打印结果:
# 最佳参数: {'n_neighbors': 3}print("最佳准确率:", grid_search.best_score_)
# 打印结果:
# 最佳准确率: 0.9583333333333334

请注意,实际的输出结果,包括最佳参数和准确率,将取决于模型在训练数据上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • KNeighborsClassifier() 创建了一个 K 近邻分类器模型。
  • GridSearchCV() 进行网格搜索来找到最佳的参数组合,cv=5 表示使用5折交叉验证。
  • fit() 方法用于在训练集上训练网格搜索对象。
  • print() 函数用于打印出最佳的参数和准确率,这是评估模型性能的指标。

附录

一、scikit-learn 学习文档地址

scikit-learn: machine learning in Python — scikit-learn 1.5.0 documentation

二、scikit-learn 功能特点介绍

scikit-learn 是一个广受欢迎的 Python 机器学习库,因其简单易用且功能强大而备受青睐。它提供了多种常见的机器学习算法和工具,适用于数据预处理、模型训练、模型评估以及模型选择等各个环节。以下是对 scikit-learn 的详细介绍。

scikit-learn 的特点

  1. 丰富的算法:scikit-learn 包含了多种机器学习算法,包括分类、回归、聚类和降维算法。
  2. 易于使用:提供了统一且简单的接口,适合初学者快速上手,也能满足专家的复杂需求。
  3. 高效:底层基于 Cython 和 NumPy 实现,保证了计算效率。
  4. 广泛的应用:适用于学术研究、数据科学和工业应用等多个领域。

scikit-learn 提供的主要功能

1. 数据预处理

数据预处理是机器学习中的重要步骤,scikit-learn 提供了多种工具来处理数据:

  • 标准化和归一化(StandardScaler、MinMaxScaler)
  • 缺失值处理(SimpleImputer)
  • 类别编码(OneHotEncoder、LabelEncoder)
  • 特征选择(SelectKBest、RFE)
2. 分类算法

scikit-learn 提供了多种分类算法,用于预测离散标签:

  • 逻辑回归(Logistic Regression)
  • k近邻算法(k-Nearest Neighbors, KNN)
  • 支持向量机(Support Vector Machines, SVM)
  • 决策树(Decision Trees)
  • 随机森林(Random Forest)
  • 朴素贝叶斯(Naive Bayes)
  • 梯度提升(Gradient Boosting)
3. 回归算法

用于预测连续值的回归算法包括:

  • 线性回归(Linear Regression)
  • 决策树回归(Decision Tree Regressor)
  • 支持向量回归(Support Vector Regressor, SVR)
  • 随机森林回归(Random Forest Regressor)
  • 岭回归(Ridge Regression)
  • 拉索回归(Lasso Regression)
4. 聚类算法

聚类算法用于无监督学习,发现数据的内在结构:

  • k均值聚类(k-Means Clustering)
  • 层次聚类(Agglomerative Clustering)
  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
  • 均值漂移(Mean Shift)
5. 降维算法

降维算法用于数据降维和特征提取:

  • 主成分分析(Principal Component Analysis, PCA)
  • 线性判别分析(Linear Discriminant Analysis, LDA)
  • 奇异值分解(Singular Value Decomposition, SVD)
  • 因子分析(Factor Analysis)
6. 模型选择与评估

scikit-learn 提供了多种工具来进行模型选择和评估:

  • 交叉验证(Cross-Validation)
  • 网格搜索和随机搜索(GridSearchCV、RandomizedSearchCV)
  • 各种评估指标(accuracy_score、mean_squared_error、confusion_matrix 等)

示例:使用 scikit-learn 进行简单的分类任务

以下是一个使用鸢尾花数据集进行分类任务的示例,展示了从数据加载、预处理到模型训练和评估的完整流程。

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt# 加载数据
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 数据分割
X = df.drop('target', axis=1)
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)# 训练模型
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)# 绘制混淆矩阵
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap='Blues')
plt.title('Confusion Matrix')
plt.show()

三、scikit-learn 提供的 内置数据集

scikit-learn 提供了许多内置的数据集,这些数据集可以方便地用于学习和测试。以下是一些常见的内置数据集:

  1. Iris 数据集

    • 描述:著名的鸢尾花数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_iris()
  2. Digits 数据集

    • 描述:手写数字数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_digits()
  3. Wine 数据集

    • 描述:葡萄酒分类数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_wine()
  4. Breast Cancer 数据集

    • 描述:乳腺癌数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_breast_cancer()
  5. Boston Housing 数据集

    • 描述:波士顿房价数据集,用于回归任务。(注:该数据集已被标记为不推荐使用)
    • 加载方法sklearn.datasets.load_boston()
  6. Diabetes 数据集

    • 描述:糖尿病数据集,用于回归任务。
    • 加载方法sklearn.datasets.load_diabetes()
  7. Linnerud 数据集

    • 描述:多输出回归数据集,包括锻炼和生理数据。
    • 加载方法sklearn.datasets.load_linnerud()
  8. California Housing 数据集

    • 描述:加利福尼亚房价数据集,用于回归任务。
    • 加载方法sklearn.datasets.fetch_california_housing()
  9. 20 Newsgroups 数据集

    • 描述:20个新闻组数据集,用于文本分类任务。
    • 加载方法sklearn.datasets.fetch_20newsgroups()
  10. Olive Oil 数据集

    • 描述:橄榄油数据集,用于聚类任务。
    • 加载方法sklearn.datasets.fetch_olivetti_faces()

示例:如何加载内置数据集

以下是一些数据集的加载示例:

from sklearn.datasets import load_iris, load_digits, load_wine, load_breast_cancer, load_diabetes, load_linnerud, fetch_california_housing, fetch_20newsgroups, fetch_olivetti_faces# 加载 Iris 数据集
iris = load_iris()
print(iris.data.shape)# 加载 Digits 数据集
digits = load_digits()
print(digits.data.shape)# 加载 Wine 数据集
wine = load_wine()
print(wine.data.shape)# 加载 Breast Cancer 数据集
breast_cancer = load_breast_cancer()
print(breast_cancer.data.shape)# 加载 Diabetes 数据集
diabetes = load_diabetes()
print(diabetes.data.shape)# 加载 Linnerud 数据集
linnerud = load_linnerud()
print(linnerud.data.shape)# 加载 California Housing 数据集
california_housing = fetch_california_housing()
print(california_housing.data.shape)# 加载 20 Newsgroups 数据集
newsgroups = fetch_20newsgroups()
print(len(newsgroups.data))# 加载 Olivetti Faces 数据集
faces = fetch_olivetti_faces()
print(faces.data.shape)

这篇关于Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1041918

相关文章

MyBatis常用XML语法详解

《MyBatis常用XML语法详解》文章介绍了MyBatis常用XML语法,包括结果映射、查询语句、插入语句、更新语句、删除语句、动态SQL标签以及ehcache.xml文件的使用,感兴趣的朋友跟随小... 目录1、定义结果映射2、查询语句3、插入语句4、更新语句5、删除语句6、动态 SQL 标签7、ehc

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

一文详解Python如何开发游戏

《一文详解Python如何开发游戏》Python是一种非常流行的编程语言,也可以用来开发游戏模组,:本文主要介绍Python如何开发游戏的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录一、python简介二、Python 开发 2D 游戏的优劣势优势缺点三、Python 开发 3D

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符

Python版本与package版本兼容性检查方法总结

《Python版本与package版本兼容性检查方法总结》:本文主要介绍Python版本与package版本兼容性检查方法的相关资料,文中提供四种检查方法,分别是pip查询、conda管理、PyP... 目录引言为什么会出现兼容性问题方法一:用 pip 官方命令查询可用版本方法二:conda 管理包环境方法

基于Python开发Windows自动更新控制工具

《基于Python开发Windows自动更新控制工具》在当今数字化时代,操作系统更新已成为计算机维护的重要组成部分,本文介绍一款基于Python和PyQt5的Windows自动更新控制工具,有需要的可... 目录设计原理与技术实现系统架构概述数学建模工具界面完整代码实现技术深度分析多层级控制理论服务层控制注

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

Python打包成exe常用的四种方法小结

《Python打包成exe常用的四种方法小结》本文主要介绍了Python打包成exe常用的四种方法,包括PyInstaller、cx_Freeze、Py2exe、Nuitka,文中通过示例代码介绍的非... 目录一.PyInstaller11.安装:2. PyInstaller常用参数下面是pyinstal