scikit-learn KNN实现糖尿病预测

2024-03-07 07:58

本文主要是介绍scikit-learn KNN实现糖尿病预测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随书代码,阅读笔记。

KNN是一种有监督的机器学习算法,可以解决分类问题,也可以解决回归问题。

算法优点:准确性高,对异常值和噪声有较高的容忍度;

算法缺点:计算量大,内存消耗也比较大。

针对算法计算量大,有一些改进的数据结构,避免重复计算K-D Tree, Ball Tree。

算法变种:根据邻居的距离,分配不同权重。另外一个变种是指定半径。

  • KNN进行分类
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pdfrom sklearn.datasets.samples_generator import make_blobs
# 生成数据
centers = [[-2, 2], [2, 2], [0, 4]]
X, y = make_blobs(n_samples=60, centers=centers, random_state=0, cluster_std=0.60)# 画出数据
plt.figure(figsize=(16, 10), dpi=144)
c = np.array(centers)
plt.scatter(X[:, 0], X[:, 1], c=y, s=100, cmap='cool');         # 画出样本
plt.scatter(c[:, 0], c[:, 1], s=100, marker='^', c='orange');   # 画出中心点from sklearn.neighbors import KNeighborsClassifier
# 模型训练
k = 5
clf = KNeighborsClassifier(n_neighbors=k)
clf.fit(X, y);# 进行预测
X_sample = [0, 2]
y_sample = clf.predict(X_sample);
neighbors = clf.kneighbors(X_sample, return_distance=False);# 画出示意图
plt.figure(figsize=(16, 10), dpi=144)
plt.scatter(X[:, 0], X[:, 1], c=y, s=100, cmap='cool');    # 样本
plt.scatter(c[:, 0], c[:, 1], s=100, marker='^', c='k');   # 中心点
plt.scatter(X_sample[0], X_sample[1], marker="x", c=y_sample, s=100, cmap='cool')    # 待预测的点for i in neighbors[0]:plt.plot([X[i][0], X_sample[0]], [X[i][1], X_sample[1]], 'k--', linewidth=0.6);    # 预测点与距离最近的 5 个样本的连线

  • KNN进行回归拟合
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np# 生成训练样本
n_dots = 40
X = 5 * np.random.rand(n_dots, 1)
y = np.cos(X).ravel()# 添加一些噪声
y += 0.2 * np.random.rand(n_dots) - 0.1# 训练模型
from sklearn.neighbors import KNeighborsRegressor
k = 5
knn = KNeighborsRegressor(k)
knn.fit(X, y);# 生成足够密集的点并进行预测
T = np.linspace(0, 5, 500)[:, np.newaxis]
y_pred = knn.predict(T)
knn.score(X, y)#output:0.98579189493611052# 画出拟合曲线
plt.figure(figsize=(16, 10), dpi=144)
plt.scatter(X, y, c='g', label='data', s=100)         # 画出训练样本
plt.plot(T, y_pred, c='k', label='prediction', lw=4)  # 画出拟合曲线
plt.axis('tight')
plt.title("KNeighborsRegressor (k = %i)" % k)
plt.show()

  • KNN 实现糖尿病预测
    %matplotlib inline
    import matplotlib.pyplot as plt
    import numpy as np
    import pandas as pd# 加载数据
    data = pd.read_csv('datasets/pima-indians-diabetes/diabetes.csv')
    print('dataset shape {}'.format(data.shape))
    data.head()data.groupby("Outcome").size()
    #Outcome
    #0    500 无糖尿病
    #1    268 有糖尿病
    #dtype: int64X = data.iloc[:, 0:8]
    Y = data.iloc[:, 8]
    print('shape of X {}; shape of Y {}'.format(X.shape, Y.shape))from sklearn.model_selection import train_test_split
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2);from sklearn.neighbors import KNeighborsClassifier, RadiusNeighborsClassifiermodels = []
    models.append(("KNN", KNeighborsClassifier(n_neighbors=2)))
    models.append(("KNN with weights", KNeighborsClassifier(n_neighbors=2, weights="distance")))
    models.append(("Radius Neighbors", RadiusNeighborsClassifier(n_neighbors=2, radius=500.0)))results = []
    for name, model in models:model.fit(X_train, Y_train)results.append((name, model.score(X_test, Y_test)))
    for i in range(len(results)):print("name: {}; score: {}".format(results[i][0],results[i][1]))#name: KNN; score: 0.681818181818
    #name: KNN with weights; score: 0.636363636364
    #name: Radius Neighbors; score: 0.62987012987from sklearn.model_selection import KFold
    from sklearn.model_selection import cross_val_score#kfold 训练10次,计算10次的平均准确率
    results = []
    for name, model in models:kfold = KFold(n_splits=10)cv_result = cross_val_score(model, X, Y, cv=kfold)results.append((name, cv_result))
    for i in range(len(results)):print("name: {}; cross val score: {}".format(results[i][0],results[i][1].mean()))#name: KNN; cross val score: 0.714764183185
    #name: KNN with weights; cross val score: 0.677050580998
    #name: Radius Neighbors; cross val score: 0.6497265892#模型训练
    knn = KNeighborsClassifier(n_neighbors=2)
    knn.fit(X_train, Y_train)
    train_score = knn.score(X_train, Y_train)
    test_score = knn.score(X_test, Y_test)
    print("train score: {}; test score: {}".format(train_score, test_score))#画出学习曲线
    from sklearn.model_selection import ShuffleSplit
    from common.utils import plot_learning_curveknn = KNeighborsClassifier(n_neighbors=2)
    cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)
    plt.figure(figsize=(10, 6), dpi=200)
    plot_learning_curve(plt, knn, "Learn Curve for KNN Diabetes", X, Y, ylim=(0.0, 1.01), cv=cv);#数据可视化
    # 从8个特征中选择2个最重要的特征进行可视化from sklearn.feature_selection import SelectKBestselector = SelectKBest(k=2)
    X_new = selector.fit_transform(X, Y)
    X_new[0:5]results = []
    for name, model in models:kfold = KFold(n_splits=10)cv_result = cross_val_score(model, X_new, Y, cv=kfold)results.append((name, cv_result))
    for i in range(len(results)):print("name: {}; cross val score: {}".format(results[i][0],results[i][1].mean()))# 画出数据
    plt.figure(figsize=(10, 6), dpi=200)
    plt.ylabel("BMI")
    plt.xlabel("Glucose")
    plt.scatter(X_new[Y==0][:, 0], X_new[Y==0][:, 1], c='r', s=20, marker='o');         # 画出样本
    plt.scatter(X_new[Y==1][:, 0], X_new[Y==1][:, 1], c='g', s=20, marker='^');         # 画出样本#2个特征和8个特征得到的结果差不多。分类效果达到了瓶颈

KNN对糖尿病进行测试,无法得到比较高的预测准确性

扩展阅读

这篇关于scikit-learn KNN实现糖尿病预测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/782855

相关文章

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

《C#借助Spire.XLSfor.NET实现在Excel中添加文档属性》在日常的数据处理和项目管理中,Excel文档扮演着举足轻重的角色,本文将深入探讨如何在C#中借助强大的第三方库Spire.... 目录为什么需要程序化添加Excel文档属性使用Spire.XLS for .NET库实现文档属性管理Sp

Python+FFmpeg实现视频自动化处理的完整指南

《Python+FFmpeg实现视频自动化处理的完整指南》本文总结了一套在Python中使用subprocess.run调用FFmpeg进行视频自动化处理的解决方案,涵盖了跨平台硬件加速、中间素材处理... 目录一、 跨平台硬件加速:统一接口设计1. 核心映射逻辑2. python 实现代码二、 中间素材处

Java数组动态扩容的实现示例

《Java数组动态扩容的实现示例》本文主要介绍了Java数组动态扩容的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1 问题2 方法3 结语1 问题实现动态的给数组添加元素效果,实现对数组扩容,原始数组使用静态分配

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.

Python轻松实现Word到Markdown的转换

《Python轻松实现Word到Markdown的转换》在文档管理、内容发布等场景中,将Word转换为Markdown格式是常见需求,本文将介绍如何使用FreeSpire.DocforPython实现... 目录一、工具简介二、核心转换实现1. 基础单文件转换2. 批量转换Word文件三、工具特性分析优点局

Springboot3统一返回类设计全过程(从问题到实现)

《Springboot3统一返回类设计全过程(从问题到实现)》文章介绍了如何在SpringBoot3中设计一个统一返回类,以实现前后端接口返回格式的一致性,该类包含状态码、描述信息、业务数据和时间戳,... 目录Spring Boot 3 统一返回类设计:从问题到实现一、核心需求:统一返回类要解决什么问题?

Java使用Spire.Doc for Java实现Word自动化插入图片

《Java使用Spire.DocforJava实现Word自动化插入图片》在日常工作中,Word文档是不可或缺的工具,而图片作为信息传达的重要载体,其在文档中的插入与布局显得尤为关键,下面我们就来... 目录1. Spire.Doc for Java库介绍与安装2. 使用特定的环绕方式插入图片3. 在指定位

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

Java利用Spire.Doc for Java实现在模板的基础上创建Word文档

《Java利用Spire.DocforJava实现在模板的基础上创建Word文档》在日常开发中,我们经常需要根据特定数据动态生成Word文档,本文将深入探讨如何利用强大的Java库Spire.Do... 目录1. Spire.Doc for Java 库介绍与安装特点与优势Maven 依赖配置2. 通过替换

Android使用java实现网络连通性检查详解

《Android使用java实现网络连通性检查详解》这篇文章主要为大家详细介绍了Android使用java实现网络连通性检查的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录NetCheck.Java(可直接拷贝)使用示例(Activity/Fragment 内)权限要求