基于scikit-learn工具的交叉检验 — cross_validation模型

2024-05-14 06:48

本文主要是介绍基于scikit-learn工具的交叉检验 — cross_validation模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 何为交叉检验

在进行数据挖掘的工作或者比赛中,通常都是给定一个train训练数据集和一个test测试数据集,然后采用一个或多个模型对train进行训练,最后将训练完成得到的模型用于test 的预测。然后问题来了,我们怎么确定我们对train 训练的模型是优秀的呢?
那么我们会想到从原来的train 数据集中分成两部分 train_1,train_2,拿train_1去训练,然后将训练完成的结果带入另一部分train_2去验证。因为这时另一部分也是有target的,所以可以验证出模型的效果。
但是这样也有一个弊端,因为我们一直在将模型优化到使train_2 的结果越来越好的状态,可是我们的最终目的是要预测test, 而我们不停的优化train_2的结果很可能会造成在train_2 上的过拟合。因此我们不能只分一份来做验证,而是采用多份数据去验证,然后求平均;这样就避免了对谋一份验证数据的过拟合。这就叫交叉检验。

下面我主要介绍通过sklearn中的cross_validation 来做交叉检验

2. cross_validation

2.1 cross_validation.KFold

KFold(n,n_fold=3,shuffle=False,random_state=None)
  • n 样本个数
  • n_fold 分为多少份,至少为2,每份样本个数相同

例1

from sklearn import cross_validation
k_fold = cross_validation.KFold(n=12,n_folds=4)
for train_indices,test_indices in k_fold:print train_indices,test_indices

例2

from sklearn import cross_validation
from sklearn import datasets,svm
digits = datasets.load_digits()
X_digits = digits.data
y_digits = digits.target
clf = svm.SVC(kernel='linear',C=1)
k_fold = cross_validation.KFold(len(X_digits),n_folds=10)
print [clf.fit(X_digits[train],y_digits[train]).score(X_digits[test],y_digits[test]) for train ,test in k_fold]

还有一个函数,可以不需要写for循环,直接得到结果

cross_validation.cross_val_score(clf,X_digits,y_digits,cv=10)

2.2 cross_validation.StratifiedKFold

StratifiedKFold 是kFold 的变形,它划分的时候是将每个类别的相同比例的样本进行搭配作为1个fold,

StratifiedKFold(y,n_folds=3,shuffle=False,random_state=None)
  • y 样本标签

例子

import numpy as np
from sklearn import cross_validation
X=np.array([[1,2],[3,4],[1,2],[3,4],[1,2],[3,4],[1,2],[3,4]])
y=np.array([0,0,1,1,0,0,1,1])
skf = cross_validation.StratifiedKFold(y,n_folds=4)
for skf1,skf2 in skf:print skf1,skf2

这篇关于基于scikit-learn工具的交叉检验 — cross_validation模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/988045

相关文章

Java中的工具类命名方法

《Java中的工具类命名方法》:本文主要介绍Java中的工具类究竟如何命名,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Java中的工具类究竟如何命名?先来几个例子几种命名方式的比较到底如何命名 ?总结Java中的工具类究竟如何命名?先来几个例子JD

MySql match against工具详细用法

《MySqlmatchagainst工具详细用法》在MySQL中,MATCH……AGAINST是全文索引(Full-Textindex)的查询语法,它允许你对文本进行高效的全文搜素,支持自然语言搜... 目录一、全文索引的基本概念二、创建全文索引三、自然语言搜索四、布尔搜索五、相关性排序六、全文索引的限制七

基于Java实现回调监听工具类

《基于Java实现回调监听工具类》这篇文章主要为大家详细介绍了如何基于Java实现一个回调监听工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录监听接口类 Listenable实际用法打印结果首先,会用到 函数式接口 Consumer, 通过这个可以解耦回调方法,下面先写一个

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

JS+HTML实现在线图片水印添加工具

《JS+HTML实现在线图片水印添加工具》在社交媒体和内容创作日益频繁的今天,如何保护原创内容、展示品牌身份成了一个不得不面对的问题,本文将实现一个完全基于HTML+CSS构建的现代化图片水印在线工具... 目录概述功能亮点使用方法技术解析延伸思考运行效果项目源码下载总结概述在社交媒体和内容创作日益频繁的

基于Python打造一个全能文本处理工具

《基于Python打造一个全能文本处理工具》:本文主要介绍一个基于Python+Tkinter开发的全功能本地化文本处理工具,它不仅具备基础的格式转换功能,更集成了中文特色处理等实用功能,有需要的... 目录1. 概述:当文本处理遇上python图形界面2. 功能全景图:六大核心模块解析3.运行效果4. 相

springboot项目中常用的工具类和api详解

《springboot项目中常用的工具类和api详解》在SpringBoot项目中,开发者通常会依赖一些工具类和API来简化开发、提高效率,以下是一些常用的工具类及其典型应用场景,涵盖Spring原生... 目录1. Spring Framework 自带工具类(1) StringUtils(2) Coll

MySQL中的交叉连接、自然连接和内连接查询详解

《MySQL中的交叉连接、自然连接和内连接查询详解》:本文主要介绍MySQL中的交叉连接、自然连接和内连接查询,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、引入二、交php叉连接(cross join)三、自然连接(naturalandroid join)四

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in