注意力机制(Attention mechanism)(上篇)

2024-09-02 02:04

本文主要是介绍注意力机制(Attention mechanism)(上篇),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        在图像识别的时候,假设输入的图像大小都是一样的。但如果问题变得复杂,如图1所 示,输入是一组向量,并且输入的向量的数量是会改变的,即每次模型输入的序列长度都不一 样,这个时候应该要怎么处理呢?我们通过具体的例子来讲解处理方法。

9f958eaee54a4cd0a7603557d54b214b.png

图1  输入是一组向量

        第一个例子是文字处理,假设网络的输入是一个句子,每一个句子的长度都不一样(每个 句子里面词汇的数量都不一样)。如果把一个句子里面的每一个词汇都描述成一个向量,用向 量来表示,模型的输入就是一个向量序列,而且该向量序列的大小每次都不一样(句子的长度 不一样,向量序列的大小就不一样)。

        将词汇表示成向量最简单的做法是独热编码,创建一个很长的向量,该向量的长度跟世 界上存在的词汇的数量是一样多的。假设英文是十万个词汇,创建一个十万维的向量,每一 个维度对应到一个词汇,如式所示。但是这种表示方法有一个非常严重的问题,它假设 所有的词汇彼此之间都是没有关系的。cat 和 dog 都是动物,它们应该比较像;cat 是动物, apple 是植物,它们应该比较不像。但从独热向量中不能看到这件事情,其里面没有任何语义 的信息。

6d2aab1144b748e2a853dd0603d2f167.png

        除了独热编码,词嵌入(word embedding)也可将词汇表示成向量。词嵌入使用一个 向量来表示一个词汇,而这个向量是包含语义信息的。如图2所示,如果把词嵌入画出来, 所有的动物可能聚集成一团,所有的植物可能聚集成一团,所有的动词可能聚集成一团等等。 词嵌入会给每一个词汇一个向量,而一个句子就是一组长度不一的向量。

230068784c5441f6819b873a7bea257b.png

图2  词嵌入

        接下来举一些把一个向量的序列当做输入的例子。如图3所示,一段声音信号其实是 一组向量。我们会把一段声音信号取一个范围,这个范围叫做一个窗口(window),把该窗口 里面的信息描述成一个向量,这个向量称为一帧(frame)。通常这个窗口的长度就是25毫秒。 为了要描述一整段的声音信号,我们会把这个窗口往右移一点,通常移动的大小是10毫秒。

 

图 3 语音处理

        总之,一段声音信号就是用一串向量来表示,而因为每一个窗口,他们往右移都是移动 10 毫秒,所以一秒钟的声音信号有 100 个向量,所以一分钟的声音信号就有这个 100 乘以 60,就有 6000 个向量。所以语音其实很复杂的。一小段的声音信号,它里面包含的信息量其 实是非常可观的,所以声音信号也是一堆向量。

        一个图(graph)也是一堆向量。社交网络是一个图,在社交网络上面每一个节点就是一个人。每一个节点可以看作是一个向量。每一个人的简介里面的信息(性别、年龄、工作等等) 都可以用一个向量来表示。所以一个社交网络可以看做是一堆的向量所组成的。

        药物发现(drugdiscovery)跟图有关,如图 4 所示,一个分子也可以看作是一个图。如 果把一个分子当做是模型的输入,每一个分子可以看作是一个图,分子上面的每一个球就是 一个原子,每个原子就是一个向量。每个原子可以用独热向量来表示,比如氢、碳、氧的独热 向量表示如式 所示。

 

图4 药物发现

11b10adaee65415cbc1d90735f9164ab.png

        如果用独热向量来表示每一个原子,一个分子就是一个图,它就是一堆向量。

 

 

这篇关于注意力机制(Attention mechanism)(上篇)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128683

相关文章

Maven 配置中的 <mirror>绕过 HTTP 阻断机制的方法

《Maven配置中的<mirror>绕过HTTP阻断机制的方法》:本文主要介绍Maven配置中的<mirror>绕过HTTP阻断机制的方法,本文给大家分享问题原因及解决方案,感兴趣的朋友一... 目录一、问题场景:升级 Maven 后构建失败二、解决方案:通过 <mirror> 配置覆盖默认行为1. 配置示

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

Go语言中Recover机制的使用

《Go语言中Recover机制的使用》Go语言的recover机制通过defer函数捕获panic,实现异常恢复与程序稳定性,具有一定的参考价值,感兴趣的可以了解一下... 目录引言Recover 的基本概念基本代码示例简单的 Recover 示例嵌套函数中的 Recover项目场景中的应用Web 服务器中

Jvm sandbox mock机制的实践过程

《Jvmsandboxmock机制的实践过程》:本文主要介绍Jvmsandboxmock机制的实践过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、背景二、定义一个损坏的钟1、 Springboot工程中创建一个Clock类2、 添加一个Controller

Dubbo之SPI机制的实现原理和优势分析

《Dubbo之SPI机制的实现原理和优势分析》:本文主要介绍Dubbo之SPI机制的实现原理和优势,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Dubbo中SPI机制的实现原理和优势JDK 中的 SPI 机制解析Dubbo 中的 SPI 机制解析总结Dubbo中

Java 的 Condition 接口与等待通知机制详解

《Java的Condition接口与等待通知机制详解》在Java并发编程里,实现线程间的协作与同步是极为关键的任务,本文将深入探究Condition接口及其背后的等待通知机制,感兴趣的朋友一起看... 目录一、引言二、Condition 接口概述2.1 基本概念2.2 与 Object 类等待通知方法的区别

嵌入式Linux驱动中的异步通知机制详解

《嵌入式Linux驱动中的异步通知机制详解》:本文主要介绍嵌入式Linux驱动中的异步通知机制,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言一、异步通知的核心概念1. 什么是异步通知2. 异步通知的关键组件二、异步通知的实现原理三、代码示例分析1. 设备结构

JVM垃圾回收机制之GC解读

《JVM垃圾回收机制之GC解读》:本文主要介绍JVM垃圾回收机制之GC,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、死亡对象的判断算法1.1 引用计数算法1.2 可达性分析算法二、垃圾回收算法2.1 标记-清除算法2.2 复制算法2.3 标记-整理算法2.4

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringRetry重试机制之@Retryable注解与重试策略详解

《SpringRetry重试机制之@Retryable注解与重试策略详解》本文将详细介绍SpringRetry的重试机制,特别是@Retryable注解的使用及各种重试策略的配置,帮助开发者构建更加健... 目录引言一、SpringRetry基础知识二、启用SpringRetry三、@Retryable注解