政安晨:【示例演绎机器学习】(四)—— 神经网络的标量回归问题示例 (价格预测)

本文主要是介绍政安晨:【示例演绎机器学习】(四)—— 神经网络的标量回归问题示例 (价格预测),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

政安晨的个人主页政安晨

欢迎 👍点赞✍评论⭐收藏

收录专栏政安晨的机器学习笔记

希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正,让小伙伴们一起学习、交流进步,不论是学业还是工作都取得好成绩!

前言

咱们这个系列的前面几篇机器学习示例演绎的文章中,演绎的都是分类问题,其目标是预测输入数据点所对应的单一离散标签。

其实还有另一种常见的机器学习问题是回归(regression)问题它预测的是一个连续值,而不是离散标签,比如根据气象数据预测明日气温,或者根据软件说明书预测完成软件项目所需时间。

这个系列的前面三篇文章为:

政安晨:【示例演绎机器学习】(一)—— 剖析神经网络:学习核心的Keras APIicon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136187781政安晨:【示例演绎机器学习】(二)—— 神经网络的二分类问题示例 (影评分类)icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136204994政安晨:【示例演绎机器学习】(三)—— 神经网络的多分类问题示例 (新闻分类)icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136218745咱们准备好环境后开始机器学习的演绎。


导入数据集

本节将尝试预测上世纪某个时期波士顿郊区房价的中位数,已知当时郊区的一些数据点,如犯罪率、地方房产税率等。本节用到的数据集与前两个例子有一个有趣的区别。

它包含的数据点相对较少,只有506个,划分为404个训练样本和102个测试样本

输入数据的每个特征(比如犯罪率)都有不同的取值范围。

有的特征是比例,取值在0和1之间;

有的取值在1和12之间;

还有的取值在0和100之间。

我们首先加载波士顿房价数据集,如代码如下所示:

加载波士顿房价数据集

from tensorflow.keras.datasets import boston_housing
(train_data, train_targets), (test_data, test_targets) = (boston_housing.load_data())

咱们来看一下数据:

可以看到,我们有404个训练样本和102个测试样本,每个样本都有13个数值特征,比如人均犯罪率、住宅的平均房间数、高速公路可达性等。

目标是房价中位数,单位是千美元。

房价大都介于10 000美元~50 000美元。如果你觉得这很便宜,请不要忘记当时是20世纪70年代中期,而且这些价格没有按通货膨胀进行调整。

准备数据

将取值范围差异很大的数据输入到神经网络中,这是有问题的。

模型可能会自动适应这种取值范围不同的数据,但这肯定会让学习变得更加困难。

对于这类数据,普遍采用的最佳处理方法是对每个特征进行标准化,即对于输入数据的每个特征(输入数据矩阵的每一列),减去特征平均值,再除以标准差,这样得到的特征平均值为0,标准差为1。

用NumPy可以很容易实现数据标准化,如下代码所示:

数据标准化

mean = train_data.mean(axis=0)
train_data -= mean
std = train_data.std(axis=0)
train_data /= std
test_data -= mean
test_data /= std

注意,对测试数据进行标准化的平均值和标准差都是在训练数据上计算得到的。

在深度学习工作流程中,你不能使用在测试数据上计算得到的任何结果,即使是像数据标准化这么简单的事情也不行

构建模型

由于样本数量很少,因此我们将使用一个非常小的模型。它包含两个中间层,每层有64个单元,如下代码所示(模型定义):

(一般来说,训练数据越少,过拟合就会越严重,而较小的模型可以降低过拟合。)

from tensorflow import keras
from tensorflow.keras import layersdef build_model():# 由于需要将同一个模型多次实例化,因此我们用一个函数来构建模型model = keras.Sequential([  layers.Dense(64, activation="relu"),layers.Dense(64, activation="relu"),layers.Dense(1)])model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])return model

模型的最后一层只有一个单元且没有激活,它是一个线性层。

这是标量回归(标量回归是预测单一连续值的回归)的典型设置。

添加激活函数将限制输出范围。

如果向最后一层添加sigmoid激活函数,那么模型只能学会预测0到1的值。这里最后一层是纯线性的,所以模型可以学会预测任意范围的值。

注意,我们编译模型用的是mse损失函数,即均方误差(mean squared error,MSE),预测值与目标值之差的平方。这是回归问题常用的损失函数。

在训练过程中还要监控一个新指标:平均绝对误差(mean absolute error,MAE)

它是预测值与目标值之差的绝对值。如果这个问题的MAE等于0.5,就表示预测房价与实际价格平均相差500美元。

利用K折交叉验证来验证你的方法

为了在调节参数(比如训练轮数)的同时对模型进行评估,我们可以将数据划分为训练集和验证集,正如前面的例子所做的那样。

但由于数据点很少,验证集会非常小(比如大约100个样本),因此验证分数可能会有很大波动,这取决于我们所选择的验证集和训练集。也就是说,验证分数对于验证集的划分方式可能会有很大的方差,这样我们就无法对模型进行可靠的评估。

在这种情况下,最佳做法是使用K折交叉验证,如下图所示:

这种方法将可用数据划分为K个分区(K通常取4或5),实例化K个相同的模型,然后将每个模型在K-1个分区上训练,并在剩下的一个分区上进行评估。模型的验证分数等于这K个验证分数的平均值。

这种方法的代码实现很简单,如下代码所示(K折交叉验证):

k = 4
num_val_samples = len(train_data) // k
num_epochs = 100
all_scores = []
for i in range(k):print(f"Processing fold #{i}")# 准备验证数据:第k个分区的数据val_data = train_data[i * num_val_samples: (i + 1) * num_val_samples]val_targets = train_targets[i * num_val_samples: (i + 1) * num_val_samples]# 准备训练数据:其余所有分区的数据partial_train_data = np.concatenate([train_data[:i * num_val_samples],train_data[(i + 1) * num_val_samples:]],axis=0)partial_train_targets = np.concatenate([train_targets[:i * num_val_samples],train_targets[(i + 1) * num_val_samples:]],axis=0)# 构建Keras模型(已编译)model = build_model()# 训练模型(静默模式,verbose=0)model.fit(partial_train_data, partial_train_targets, epochs=num_epochs, batch_size=16, verbose=0)# 验证数据上评估模型val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0)all_scores.append(val_mae)

演绎:

设置num_epochs = 100,运行结果如下:

每次运行模型得到的验证分数确实有很大差异,从2.1到3.1不等。

平均分数(2.6)是比单一分数更可靠的指标——这就是K折交叉验证的核心要点。

在这个例子中,预测房价与实际房价平均相差2600美元,考虑到实际房价范围是10 000美元~50000美元,这一差别还是很大的。

我们让模型训练时间更长一点:500轮。为了记录模型每轮的表现,我们需要修改训练循环,在每轮都保存每折的验证分数,如下代码所示(保存每折的验证分数):

num_epochs = 500
all_mae_histories = []for i in range(k):print(f"Processing fold #{i}")# 准备验证数据:第k个分区的数据val_data = train_data[i * num_val_samples: (i + 1) * num_val_samples]val_targets = train_targets[i * num_val_samples: (i + 1) * num_val_samples]# 准备训练数据:其余所有分区的数据partial_train_data = np.concatenate([train_data[:i * num_val_samples],train_data[(i + 1) * num_val_samples:]],axis=0)partial_train_targets = np.concatenate([train_targets[:i * num_val_samples],train_targets[(i + 1) * num_val_samples:]],axis=0)# 构建Keras模型(已编译)model = build_model()# 训练模型(静默模式,verbose=0)history = model.fit(partial_train_data, partial_train_targets,validation_data=(val_data, val_targets),epochs=num_epochs, batch_size=16, verbose=0)mae_history = history.history["val_mae"]all_mae_histories.append(mae_history)

演绎:

然后,计算每轮所有折MAE的平均值,如下代码所示:

(计算每轮的K折验证分数平均值)

average_mae_history = [np.mean([x[i] for x in all_mae_histories]) for i in range(num_epochs)]

我们来画图看看,如下代码所示:

(绘制验证MAE曲线)

import matplotlib.pyplot as pltplt.plot(range(1, len(average_mae_history) + 1), average_mae_history)
plt.xlabel("Epochs")
plt.ylabel("Validation MAE")
plt.show()

由于比例问题,前几轮的验证MAE远大于后面的轮次,很难看清这张图的规律。我们忽略前10个数据点,因为它们的取值范围与曲线上的其他点不同,如下代码所示:

绘制验证MAE曲线(剔除前10个数据点)

truncated_mae_history = average_mae_history[10:]
plt.plot(range(1, len(truncated_mae_history) + 1), truncated_mae_history)
plt.xlabel("Epochs")
plt.ylabel("Validation MAE")
plt.show()

从上图可以看出,验证MAE在120~140轮(包含剔除的那10轮)后不再显著降低,再之后就开始过拟合了。

完成模型调参之后(除了轮数,还可以调节中间层大小),你可以使用最佳参数在所有训练数据上训练最终的生产模型,然后查看模型在测试数据上的表现,如下代码所示:

训练最终模型

# 一个全新的已编译模型
model = build_model()  # 在所有训练数据上训练模型
model.fit(train_data, train_targets,epochs=130, batch_size=16, verbose=0)test_mse_score, test_mae_score = model.evaluate(test_data, test_targets)

预测房价和实际房价还是相差不到2500美元。不过有进步!就像前两个任务一样,你可以尝试改变模型的层数或每层的单元个数,看是否能够降低测试误差。

对新数据进行预测

在调用二分类模型的predict()时,每个输入样本都得到一个介于0和1之间的标量值。

对于多分类模型,每个样本都得到一个在所有类别上的概率分布。对于这个标量回归模型,predict()返回的是模型对样本价格的猜测,单位是千美元。

predictions = model.predict(test_data)
predictions[0]

模型预测,测试集中的第一所房子的价格约为10 000美元。

结论

回归问题使用的损失函数与分类问题不同。回归常用的损失函数是均方误差(MSE)。

同样,回归问题使用的评估指标也与分类问题不同。显然,精度的概念不再适用于回归问题常用的回归指标是平均绝对误差(MAE)如果输入数据的特征具有不同的取值范围,那么应该先进行预处理,对每个特征单独进行缩放。如果可用的数据很少,那么K折交叉验证是评估模型的可靠方法。

如果可用的训练数据很少,那么最好使用中间层较少(通常只有一两个)的小模型,以避免严重的过拟合。

这篇关于政安晨:【示例演绎机器学习】(四)—— 神经网络的标量回归问题示例 (价格预测)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/742573

相关文章

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

MyBatis ResultMap 的基本用法示例详解

《MyBatisResultMap的基本用法示例详解》在MyBatis中,resultMap用于定义数据库查询结果到Java对象属性的映射关系,本文给大家介绍MyBatisResultMap的基本... 目录MyBATis 中的 resultMap1. resultMap 的基本语法2. 简单的 resul

Mybatis Plus Join使用方法示例详解

《MybatisPlusJoin使用方法示例详解》:本文主要介绍MybatisPlusJoin使用方法示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录1、pom文件2、yaml配置文件3、分页插件4、示例代码:5、测试代码6、和PageHelper结合6

MySQL JSON 查询中的对象与数组技巧及查询示例

《MySQLJSON查询中的对象与数组技巧及查询示例》MySQL中JSON对象和JSON数组查询的详细介绍及带有WHERE条件的查询示例,本文给大家介绍的非常详细,mysqljson查询示例相关知... 目录jsON 对象查询1. JSON_CONTAINS2. JSON_EXTRACT3. JSON_TA

MySQL 设置AUTO_INCREMENT 无效的问题解决

《MySQL设置AUTO_INCREMENT无效的问题解决》本文主要介绍了MySQL设置AUTO_INCREMENT无效的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参... 目录快速设置mysql的auto_increment参数一、修改 AUTO_INCREMENT 的值。

关于跨域无效的问题及解决(java后端方案)

《关于跨域无效的问题及解决(java后端方案)》:本文主要介绍关于跨域无效的问题及解决(java后端方案),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录通用后端跨域方法1、@CrossOrigin 注解2、springboot2.0 实现WebMvcConfig

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和