人工智能-注意力机制之注意力汇聚：Nadaraya-Watson 核回归

本文主要是介绍人工智能-注意力机制之注意力汇聚：Nadaraya-Watson 核回归，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚；注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。本节将介绍注意力汇聚的更多细节，以便从宏观上了解注意力机制在实践中的运作方式。具体来说，1964年提出的Nadaraya-Watson核回归模型是一个简单但完整的例子，可以用于演示具有注意力机制的机器学习。

import torch
from torch import nn
from d2l import torch as d2l

生成数据集

在这里生成了50个训练样本和\(50\)个测试样本。为了更好地可视化之后的注意力模式，需要将训练样本进行排序。

n_train = 50  # 训练样本数
x_train, _ = torch.sort(torch.rand(n_train) * 5)   # 排序后的训练样本def f(x):return 2 * torch.sin(x) + x**0.8y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,))  # 训练样本的输出
x_test = torch.arange(0, 5, 0.1)  # 测试样本
y_truth = f(x_test)  # 测试样本的真实输出
n_test = len(x_test)  # 测试样本数
n_test

下面的函数将绘制所有的训练样本（样本由圆圈表示），不带噪声项的真实数据生成函数\(f\)（标记为“Truth”），以及学习得到的预测函数（标记为“Pred”）。

def plot_kernel_reg(y_hat):d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],xlim=[0, 5], ylim=[-1, 5])d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);

平均汇聚

如下图所示，这个估计器确实不够聪明。真实函数(f)（“Truth”）和预测函数（“Pred”）相差很大。

y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

这篇关于人工智能-注意力机制之注意力汇聚：Nadaraya-Watson 核回归的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

人工智能-注意力机制之注意力汇聚：Nadaraya-Watson 核回归

生成数据集

平均汇聚

相关文章

Redis客户端连接机制的实现方案

Spring Security 单点登录与自动登录机制的实现原理

Go语言并发之通知退出机制的实现

Spring Boot 中的默认异常处理机制及执行流程

Java中的xxl-job调度器线程池工作机制

Android ClassLoader加载机制详解

Spring事务传播机制最佳实践

MySQL中的锁机制详解之全局锁,表级锁,行级锁

Redis的持久化之RDB和AOF机制详解

PostgreSQL中MVCC 机制的实现