注意力机制(Attention mechanism)(上篇)

2024-09-02 02:04

本文主要是介绍注意力机制(Attention mechanism)(上篇),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        在图像识别的时候,假设输入的图像大小都是一样的。但如果问题变得复杂,如图1所 示,输入是一组向量,并且输入的向量的数量是会改变的,即每次模型输入的序列长度都不一 样,这个时候应该要怎么处理呢?我们通过具体的例子来讲解处理方法。

9f958eaee54a4cd0a7603557d54b214b.png

图1  输入是一组向量

        第一个例子是文字处理,假设网络的输入是一个句子,每一个句子的长度都不一样(每个 句子里面词汇的数量都不一样)。如果把一个句子里面的每一个词汇都描述成一个向量,用向 量来表示,模型的输入就是一个向量序列,而且该向量序列的大小每次都不一样(句子的长度 不一样,向量序列的大小就不一样)。

        将词汇表示成向量最简单的做法是独热编码,创建一个很长的向量,该向量的长度跟世 界上存在的词汇的数量是一样多的。假设英文是十万个词汇,创建一个十万维的向量,每一 个维度对应到一个词汇,如式所示。但是这种表示方法有一个非常严重的问题,它假设 所有的词汇彼此之间都是没有关系的。cat 和 dog 都是动物,它们应该比较像;cat 是动物, apple 是植物,它们应该比较不像。但从独热向量中不能看到这件事情,其里面没有任何语义 的信息。

6d2aab1144b748e2a853dd0603d2f167.png

        除了独热编码,词嵌入(word embedding)也可将词汇表示成向量。词嵌入使用一个 向量来表示一个词汇,而这个向量是包含语义信息的。如图2所示,如果把词嵌入画出来, 所有的动物可能聚集成一团,所有的植物可能聚集成一团,所有的动词可能聚集成一团等等。 词嵌入会给每一个词汇一个向量,而一个句子就是一组长度不一的向量。

230068784c5441f6819b873a7bea257b.png

图2  词嵌入

        接下来举一些把一个向量的序列当做输入的例子。如图3所示,一段声音信号其实是 一组向量。我们会把一段声音信号取一个范围,这个范围叫做一个窗口(window),把该窗口 里面的信息描述成一个向量,这个向量称为一帧(frame)。通常这个窗口的长度就是25毫秒。 为了要描述一整段的声音信号,我们会把这个窗口往右移一点,通常移动的大小是10毫秒。

 

图 3 语音处理

        总之,一段声音信号就是用一串向量来表示,而因为每一个窗口,他们往右移都是移动 10 毫秒,所以一秒钟的声音信号有 100 个向量,所以一分钟的声音信号就有这个 100 乘以 60,就有 6000 个向量。所以语音其实很复杂的。一小段的声音信号,它里面包含的信息量其 实是非常可观的,所以声音信号也是一堆向量。

        一个图(graph)也是一堆向量。社交网络是一个图,在社交网络上面每一个节点就是一个人。每一个节点可以看作是一个向量。每一个人的简介里面的信息(性别、年龄、工作等等) 都可以用一个向量来表示。所以一个社交网络可以看做是一堆的向量所组成的。

        药物发现(drugdiscovery)跟图有关,如图 4 所示,一个分子也可以看作是一个图。如 果把一个分子当做是模型的输入,每一个分子可以看作是一个图,分子上面的每一个球就是 一个原子,每个原子就是一个向量。每个原子可以用独热向量来表示,比如氢、碳、氧的独热 向量表示如式 所示。

 

图4 药物发现

11b10adaee65415cbc1d90735f9164ab.png

        如果用独热向量来表示每一个原子,一个分子就是一个图,它就是一堆向量。

 

 

这篇关于注意力机制(Attention mechanism)(上篇)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1128683

相关文章

基于Redis自动过期的流处理暂停机制

《基于Redis自动过期的流处理暂停机制》基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案,防止延时过大的数据影响实时处理自动恢复处理,以避免积压的数据影响实时性,下面就来详... 目录核心思路代码实现1. 初始化Redis连接和键前缀2. 接收数据时检查暂停状态3. 检测到延时过

Redis中哨兵机制和集群的区别及说明

《Redis中哨兵机制和集群的区别及说明》Redis哨兵通过主从复制实现高可用,适用于中小规模数据;集群采用分布式分片,支持动态扩展,适合大规模数据,哨兵管理简单但扩展性弱,集群性能更强但架构复杂,根... 目录一、架构设计与节点角色1. 哨兵机制(Sentinel)2. 集群(Cluster)二、数据分片

深入理解go中interface机制

《深入理解go中interface机制》本文主要介绍了深入理解go中interface机制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录前言interface使用类型判断总结前言go的interface是一组method的集合,不

C# async await 异步编程实现机制详解

《C#asyncawait异步编程实现机制详解》async/await是C#5.0引入的语法糖,它基于**状态机(StateMachine)**模式实现,将异步方法转换为编译器生成的状态机类,本... 目录一、async/await 异步编程实现机制1.1 核心概念1.2 编译器转换过程1.3 关键组件解析

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

Go语言并发之通知退出机制的实现

《Go语言并发之通知退出机制的实现》本文主要介绍了Go语言并发之通知退出机制的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1、通知退出机制1.1 进程/main函数退出1.2 通过channel退出1.3 通过cont

Spring Boot 中的默认异常处理机制及执行流程

《SpringBoot中的默认异常处理机制及执行流程》SpringBoot内置BasicErrorController,自动处理异常并生成HTML/JSON响应,支持自定义错误路径、配置及扩展,如... 目录Spring Boot 异常处理机制详解默认错误页面功能自动异常转换机制错误属性配置选项默认错误处理

Java中的xxl-job调度器线程池工作机制

《Java中的xxl-job调度器线程池工作机制》xxl-job通过快慢线程池分离短时与长时任务,动态降级超时任务至慢池,结合异步触发和资源隔离机制,提升高频调度的性能与稳定性,支撑高并发场景下的可靠... 目录⚙️ 一、调度器线程池的核心设计 二、线程池的工作流程 三、线程池配置参数与优化 四、总结:线程

Android ClassLoader加载机制详解

《AndroidClassLoader加载机制详解》Android的ClassLoader负责加载.dex文件,基于双亲委派模型,支持热修复和插件化,需注意类冲突、内存泄漏和兼容性问题,本文给大家介... 目录一、ClassLoader概述1.1 类加载的基本概念1.2 android与Java Class