ML 吴恩达 ex5:正则化、偏差、方差、样本容量之间关系总结

本文主要是介绍ML 吴恩达 ex5:正则化、偏差、方差、样本容量之间关系总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、高偏差(欠拟合)(high bias)

1.1、表现

1.2 、解决方法 — Feature Mapping for Polynomial Regression

二、高方差(过拟合)(variance)

2.1、表现

2.2、解决方法 — 正则化



一、高偏差(欠拟合)(high bias)

1.1、表现

% 1.1、无正则化的线性回归的模型
lambda = 0;  
[theta] = trainLinearReg([ones(m, 1) X], y, lambda);
% 1.2、无正则化的线性回归的学习情况
[error_train, error_val] = ...learningCurve([ones(m, 1) X], y, ...[ones(size(Xval, 1), 1) Xval], yval, ...lambda);
  • 左图可以看出回归效果不好,偏差大,模型过于简单,不能反映实际情况,由右图看出,此时增加样本容量,交叉训练误差和训练误差慢慢接近,两者都挺大的。故高偏差的情况下增加样本容量并不能降低偏差,提高效率。

1.2 、解决方法 — Feature Mapping for Polynomial Regression

  • 通过对Feature处理,增加非线性项,使得模型可以更加精确(复杂)
  • 对数据分为训练集、测试集、交叉验证集
lambda = 0;
[theta] = trainLinearReg(X_poly, y, lambda);
[error_train,error_test ,error_val] = ...learningCurve2(X_poly, y, X_poly_val, yval,X_poly_test, ytest,lambda);
% Plot training data and fit
figure,subplot(1,2,1)
plot(X, y, 'rx', 'MarkerSize', 10, 'LineWidth', 1.5);
plotFit(min(X), max(X), mu, sigma, theta, p);
xlabel('Change in water level (x)');
ylabel('Water flowing out of the dam (y)');
title (sprintf('Polynomial Regression Fit (lambda = %f)', lambda));
legend('Orgin data','polynomial regression fit p=8')subplot(1,2,2)
plot(1:m, error_train,'rx', 1:m, error_val,'g--',1:m, error_test,'MarkerSize', 10, 'LineWidth', 1.5);
title(sprintf('Polynomial Regression Learning Curve (lambda = %f)', lambda));
xlabel('Number of training examples')
ylabel('Error')
axis([0 13 0 100])
legend('Train', 'Cross Validation','Test')
  • 由左图可以看到现在模型可以很好的拟合所有的原始数据(训练误差一直为0),但是交叉误差和测试误差都挺大的,这说明模型的泛化能力不好,出现了另外一个问题:高方差。高方差的问题,可以随着样本数量增加,得到改善(交叉集和测试集的误差都有减少。)

二、高方差(过拟合)(variance)

2.1、表现

  • 模型在训练集上表现很好,但是在测试集、交叉验证集上面表现不好,泛化能力差,模型相对而言不稳定,复杂,方差高
  • 其学习曲线如上图。

2.2、解决方法 — 正则化

  • 增加样本数量

           如上图所示,当样本容量增加时,测试误差、交叉验证误差都会下降,模型性能相对会提高。

  • 使用正则化方法
  1. 计算不同lambda下的训练集、交叉验证机、测试集的误差
    function [lambda_vec, error_train, error_val,error_test] = ...validationCurve2(X, y, Xval, yval,Xtest, ytest)% Selected values of lambda (you should not change this)
    lambda_vec = [0 0.001 0.003 0.01 0.03 0.1 0.3 1 3 10]';error_train = zeros(length(lambda_vec), 1);
    error_val = zeros(length(lambda_vec), 1);
    error_test = zeros(length(lambda_vec), 1);for i=1:size(lambda_vec, 1)theta = trainLinearReg(X, y, lambda_vec(i));error_train(i) = linearRegCostFunction(X, y, theta, 0);error_val(i) = linearRegCostFunction(Xval, yval, theta, 0);error_test(i) = linearRegCostFunction(Xtest, ytest, theta, 0);
    end% =========================================================================end
    

     

  2. 画图
    [lambda_vec, error_train, error_val,error_test] = ...validationCurve2(X_poly, y, X_poly_val, yval,X_poly_test, ytest);close all;
    plot(lambda_vec, error_train, lambda_vec, error_val, lambda_vec, error_test);
    legend('Train', 'Cross Validation','Test');
    xlabel('lambda');
    ylabel('Error');

     

  3. 结果
  • 通过画学习曲线,找到最佳的正则化参数lambda.

三、交叉验证集和测试集

  1. 通过训练集和交叉验证集,确定参数lambda
  2. 由上步确定的lambda,看测试集的模型效果。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

这篇关于ML 吴恩达 ex5:正则化、偏差、方差、样本容量之间关系总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/637384

相关文章

Spring Boot 与微服务入门实战详细总结

《SpringBoot与微服务入门实战详细总结》本文讲解SpringBoot框架的核心特性如快速构建、自动配置、零XML与微服务架构的定义、演进及优缺点,涵盖开发环境准备和HelloWorld实战... 目录一、Spring Boot 核心概述二、微服务架构详解1. 微服务的定义与演进2. 微服务的优缺点三

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

C# 比较两个list 之间元素差异的常用方法

《C#比较两个list之间元素差异的常用方法》:本文主要介绍C#比较两个list之间元素差异,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1. 使用Except方法2. 使用Except的逆操作3. 使用LINQ的Join,GroupJoin

java中新生代和老生代的关系说明

《java中新生代和老生代的关系说明》:本文主要介绍java中新生代和老生代的关系说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、内存区域划分新生代老年代二、对象生命周期与晋升流程三、新生代与老年代的协作机制1. 跨代引用处理2. 动态年龄判定3. 空间分

深度解析Java项目中包和包之间的联系

《深度解析Java项目中包和包之间的联系》文章浏览阅读850次,点赞13次,收藏8次。本文详细介绍了Java分层架构中的几个关键包:DTO、Controller、Service和Mapper。_jav... 目录前言一、各大包1.DTO1.1、DTO的核心用途1.2. DTO与实体类(Entity)的区别1

JavaSE正则表达式用法总结大全

《JavaSE正则表达式用法总结大全》正则表达式就是由一些特定的字符组成,代表的是一个规则,:本文主要介绍JavaSE正则表达式用法的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录常用的正则表达式匹配符正则表China编程达式常用的类Pattern类Matcher类PatternSynta

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

java Long 与long之间的转换流程

《javaLong与long之间的转换流程》Long类提供了一些方法,用于在long和其他数据类型(如String)之间进行转换,本文将详细介绍如何在Java中实现Long和long之间的转换,感... 目录概述流程步骤1:将long转换为Long对象步骤2:将Longhttp://www.cppcns.c

Golang 日志处理和正则处理的操作方法

《Golang日志处理和正则处理的操作方法》:本文主要介绍Golang日志处理和正则处理的操作方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录1、logx日志处理1.1、logx简介1.2、日志初始化与配置1.3、常用方法1.4、配合defer