KNN(k-Nearest Neighbor)算法原理

2023-10-17 18:28

本文主要是介绍KNN(k-Nearest Neighbor)算法原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

KNN(k-Nearest Neighbor)算法是一种基于实例的学习方法,常用于分类和回归问题。下面是KNN算法的原理和步骤,以及欧式距离和曼哈顿距离的计算原理:

  1. 原理

KNN算法基于一个假设:与一个样本最相似的其他k个样本的类别可以用来预测该样本的类别。KNN算法将所有的训练数据看作一个点集,根据他们与新样本之间的距离进行分类。

  1. 步骤

KNN算法的实现步骤如下:

  • 计算测试数据与训练数据之间的距离(可以使用欧式距离或曼哈顿距离)。
  • 选取距离测试数据最近的k个点。
  • 统计k个点中各类别出现的次数。
  • 将出现次数最多的类别作为测试数据的预测结果。
  1. 欧式距离计算原理

欧式距离,也称L2距离,是一种常用的距离度量方式,其计算公式为:

d ( x , y ) = s q r t ( s u m ( x i − y i ) 2 ) d(x,y) = sqrt(sum(xi-yi)^2) d(x,y)=sqrt(sum(xiyi)2)

其中,x和y是两个向量,xi和yi分别表示向量中的第i个元素。

简单来说,欧式距离就是把两个点的各个坐标分别相减后平方再相加,最后再取平方根。

  1. 曼哈顿距离计算原理

曼哈顿距离,也称L1距离,也叫城市街区距离,其计算公式为:

d ( x , y ) = s u m ( ∣ x i − y i ∣ ) d(x,y) = sum(|xi-yi|) d(x,y)=sum(xiyi)

其中,x和y是两个向量,xi和yi分别表示向量中的第i个元素。

简单来说,曼哈顿距离就是把两个点的各个坐标分别相减后取绝对值再相加。

KNN(K-Nearest Neighbors,K近邻算法)是一种基本的分类和回归算法,它的原理非常简单直观,即通过计算待分类数据点与已有数据集中所有数据点的距离,选择其中距离最小的K个数据点(最近邻),并把它们的类别作为待分类数据点的类别进行分类。

以下是KNN算法的代码实现示例:

import numpy as np
from collections import Counterdef euclidean_distance(x1, x2):return np.sqrt(np.sum((x1 - x2)**2))class KNN:def __init__(self, k=3):self.k = kdef fit(self, X, y):self.X_train = Xself.y_train = ydef predict(self, X):y_pred = [self._predict(x) for x in X]return np.array(y_pred)def _predict(self, x):#Compute distances between x and all examples in the training setdistances = [euclidean_distance(x, x_train) for x_train in self.X_train]#Sort by distance and return indices of the first k neighborsk_idx = np.argsort(distances)[:self.k]#Extract the labels of the k nearest neighbor training samplesk_neighbor_labels = [self.y_train[i] for i in k_idx]  #Return the most common class labelmost_common = Counter(k_neighbor_labels).most_common(1)return most_common[0][0]

这个代码实现的KNN类可以接受一个超参数K和训练数据集(X_train,y_train),并且能够对给定的测试数据集X做出预测。可以使用以下代码进行测试:

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_scoredata = datasets.load_iris()
X = data.data
y = data.targetX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)knn = KNN(k=3)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)print("Accuracy:", accuracy_score(y_test, y_pred))

这个示例使用Iris数据集进行分类,随机选择了20%的数据作为测试集。结果将打印出测试集上的准确度分数。

这篇关于KNN(k-Nearest Neighbor)算法原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/227171

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

Redis中Hash从使用过程到原理说明

《Redis中Hash从使用过程到原理说明》RedisHash结构用于存储字段-值对,适合对象数据,支持HSET、HGET等命令,采用ziplist或hashtable编码,通过渐进式rehash优化... 目录一、开篇:Hash就像超市的货架二、Hash的基本使用1. 常用命令示例2. Java操作示例三

Redis中Set结构使用过程与原理说明

《Redis中Set结构使用过程与原理说明》本文解析了RedisSet数据结构,涵盖其基本操作(如添加、查找)、集合运算(交并差)、底层实现(intset与hashtable自动切换机制)、典型应用场... 目录开篇:从购物车到Redis Set一、Redis Set的基本操作1.1 编程常用命令1.2 集

Redis中的有序集合zset从使用到原理分析

《Redis中的有序集合zset从使用到原理分析》Redis有序集合(zset)是字符串与分值的有序映射,通过跳跃表和哈希表结合实现高效有序性管理,适用于排行榜、延迟队列等场景,其时间复杂度低,内存占... 目录开篇:排行榜背后的秘密一、zset的基本使用1.1 常用命令1.2 Java客户端示例二、zse

Redis中的AOF原理及分析

《Redis中的AOF原理及分析》Redis的AOF通过记录所有写操作命令实现持久化,支持always/everysec/no三种同步策略,重写机制优化文件体积,与RDB结合可平衡数据安全与恢复效率... 目录开篇:从日记本到AOF一、AOF的基本执行流程1. 命令执行与记录2. AOF重写机制二、AOF的

java程序远程debug原理与配置全过程

《java程序远程debug原理与配置全过程》文章介绍了Java远程调试的JPDA体系,包含JVMTI监控JVM、JDWP传输调试命令、JDI提供调试接口,通过-Xdebug、-Xrunjdwp参数配... 目录背景组成模块间联系IBM对三个模块的详细介绍编程使用总结背景日常工作中,每个程序员都会遇到bu

Python中isinstance()函数原理解释及详细用法示例

《Python中isinstance()函数原理解释及详细用法示例》isinstance()是Python内置的一个非常有用的函数,用于检查一个对象是否属于指定的类型或类型元组中的某一个类型,它是Py... 目录python中isinstance()函数原理解释及详细用法指南一、isinstance()函数