神经网络算法--文搞懂LSTM(长短期记忆网络)

2024-08-21 12:36

文章标签 算法网络神经网络 lstm 长短期记忆搞懂

本文主要是介绍神经网络算法--文搞懂LSTM(长短期记忆网络)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本文将从LSTM的本质、LSTM的原理、LSTM的应用 三个方面，带您一文搞懂长短期记忆网络Long Short Term Memory | LSTM。

**__**一、**_LSTM的本质_****__**

RNN 面临问题：RNN（递归神经网络）在处理长序列时面临的主要问题：短时记忆和梯度消失/梯度爆炸。

梯度更新规则

短时记忆
问题描述：RNN在处理长序列时，由于信息的传递是通过隐藏状态进行的，随着时间的推移，较早时间步的信息可能会在传递到后面的时间步时逐渐消失或被覆盖。
影响：这导致RNN难以捕捉和利用序列中的长期依赖关系，从而限制了其在处理复杂任务时的性能。
梯度消失/梯度爆炸
问题描述：在RNN的反向传播过程中，梯度会随着时间步的推移而逐渐消失（变得非常小）或爆炸（变得非常大）。
影响：梯度消失使得RNN在训练时难以学习到长期依赖关系，因为较早时间步的梯度信息在反向传播到初始层时几乎为零。梯度爆炸则可能导致训练过程不稳定，权重更新过大，甚至导致数值溢出。

LSTM解决问题： 大脑和LSTM在处理信息时都选择性地保留重要信息，忽略不相关细节，并据此进行后续处理。这种机制使它们能够高效地处理和输出关键信息，解决了RNN（递归神经网络）在处理长序列时面临的问题。

大脑记忆机制

大脑记忆机制：当浏览评论时，大脑倾向于记住重要的关键词。无关紧要的词汇和内容容易被忽略。回忆时，大脑提取并表达主要观点，忽略细节。
LSTM门控机制：LSTM通过输入门、遗忘门和输出门选择性地保留或忘记信息，使用保留的相关信息来进行预测，类似于大脑提取并表达主要观点。

RNN 工作原理：第一个词被转换成了机器可读的向量，然后 RNN 逐个处理向量序列。

逐一处理矢量序列

隐藏状态的传递
过程描述：在处理序列数据时，RNN将前一时间步的隐藏状态传递给下一个时间步。
作用：隐藏状态充当了神经网络的“记忆”，它包含了网络之前所见过的数据的相关信息。
重要性：这种传递机制使得RNN能够捕捉序列中的时序依赖关系。

将隐藏状态传递给下一个时间步

隐藏状态的计算
细胞结构：RNN的一个细胞接收当前时间步的输入和前一时间步的隐藏状态。
组合方式：当前输入和先前隐藏状态被组合成一个向量，这个向量融合了当前和先前的信息。
激活函数：组合后的向量经过一个tanh激活函数的处理，输出新的隐藏状态。这个新的隐藏状态既包含了当前输入的信息，也包含了之前所有输入的历史信息。

tanh激活函数（区间-1～1）

输出：新的隐藏状态被输出，并被传递给下一个时间步，继续参与序列的处理过程。

RNN的细胞结构和运算

LSTM工作原理：

LSTM的细胞结构和运算

输入门
作用：决定哪些新信息应该被添加到记忆单元中。
组成：输入门由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息是重要的，而tanh函数则生成新的候选信息。
运算：输入门的输出与候选信息相乘，得到的结果将在记忆单元更新时被考虑。

输入门（sigmoid激活函数 + tanh激活函数）

遗忘门
作用：决定哪些旧信息应该从记忆单元中遗忘或移除。
组成：遗忘门仅由一个sigmoid激活函数组成。

sigmoid激活函数（区间0～1）

运算：sigmoid函数的输出直接与记忆单元的当前状态相乘，用于决定哪些信息应该被保留，哪些应该被遗忘。输出值越接近1的信息将被保留，而输出值越接近0的信息将被遗忘。

遗忘门（sigmoid激活函数）
输出门
作用：决定记忆单元中的哪些信息应该被输出到当前时间步的隐藏状态中。
组成：输出门同样由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息应该被输出，而tanh函数则处理记忆单元的状态以准备输出。
运算：sigmoid函数的输出与经过tanh函数处理的记忆单元状态相乘，得到的结果即为当前时间步的隐藏状态。

输出门（sigmoid激活函数 + tanh激活函数）

_**三、LSTM****___**_******___**_**的应用**_**___******_**___******_

机器翻译：

应用描述：LSTM在机器翻译中用于将源语言句子自动翻译成目标语言句子。

关键组件：

编码器（Encoder）：一个LSTM网络，负责接收源语言句子并将其编码成一个固定长度的上下文向量。
解码器（Decoder）：另一个LSTM网络，根据上下文向量生成目标语言的翻译句子。

流程：

源语言输入：将源语言句子分词并转换为词向量序列。
编码：使用编码器LSTM处理源语言词向量序列，输出上下文向量。
初始化解码器：将上下文向量作为解码器LSTM的初始隐藏状态。
解码：解码器LSTM逐步生成目标语言的词序列，直到生成完整的翻译句子。
目标语言输出：将解码器生成的词序列转换为目标语言句子。

优化：通过比较生成的翻译句子与真实目标句子，使用反向传播算法优化LSTM模型的参数，以提高翻译质量。

情感分析：

应用描述：LSTM用于对文本进行情感分析，判断其情感倾向（积极、消极或中立）。

关键组件：

LSTM网络：接收文本序列并提取情感特征。
分类层：根据LSTM提取的特征进行情感分类。

流程：

文本预处理：将文本分词、去除停用词等预处理操作。
文本表示：将预处理后的文本转换为词向量序列。
特征提取：使用LSTM网络处理词向量序列，提取文本中的情感特征。
情感分类：将LSTM提取的特征输入到分类层进行分类，得到情感倾向。
输出：输出文本的情感倾向（积极、消极或中立）。

优化：通过比较预测的情感倾向与真实标签，使用反向传播算法优化LSTM模型的参数，以提高情感分析的准确性。

如何学习AI大模型？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

学习路线

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

这篇关于神经网络算法--文搞懂LSTM(长短期记忆网络)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1093177。 23002807@qq.com

相关文章

一篇文章彻底搞懂macOS如何决定java环境

一篇文章彻底搞懂macOS如何决定java环境

《一篇文章彻底搞懂macOS如何决定java环境》MacOS作为一个功能强大的操作系统,为开发者提供了丰富的开发工具和框架,下面：本文主要介绍macOS如何决定java环境的相关资料,文中通过代码... 目录方法一：使用 which命令方法二：使用 Java_home工具（Apple 官方推荐）那问题来了，

阅读更多...

深入理解Mysql OnlineDDL的算法

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么？二、Online DDL 的三种主要算法2.1COPY（复制法）

阅读更多...

Python实现简单封装网络请求的示例详解

Python实现简单封装网络请求的示例详解

《Python实现简单封装网络请求的示例详解》这篇文章主要为大家详细介绍了Python实现简单封装网络请求的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录安装依赖核心功能说明1. 类与方法概览2.NetHelper类初始化参数3.ApiResponse类属性与方法使用实

阅读更多...

一文详解MySQL索引(六张图彻底搞懂)

一文详解MySQL索引(六张图彻底搞懂)

《一文详解MySQL索引(六张图彻底搞懂)》MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度,：本文主要介绍MySQL索引的相关资料,文中通过代码介绍的... 目录一、什么是索引？为什么需要索引？二、索引该用哪种数据结构？1. 哈希表2. 跳表3. 二叉排序树4.

阅读更多...

React 记忆缓存的三种方法实现

React 记忆缓存的三种方法实现

《React记忆缓存的三种方法实现》本文主要介绍了React记忆缓存的三种方法实现,包含React.memo、useMemo、useCallback,用于避免不必要的组件重渲染和计算,感兴趣的可以... 目录1. React.memo2. useMemo3. useCallback使用场景与注意事项在 Re

阅读更多...

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈，更新到Debian13后网络转发等功能异常，这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本，只不过升级后发现某些功能存在异常，例如网络转

阅读更多...

一文带你迅速搞懂路由器/交换机/光猫三者概念区别

一文带你迅速搞懂路由器/交换机/光猫三者概念区别

《一文带你迅速搞懂路由器/交换机/光猫三者概念区别》讨论网络设备时，常提及路由器、交换机及光猫等词汇，日常生活、工作中，这些设备至关重要，居家上网、企业内部沟通乃至互联网冲浪皆无法脱离其影响力，本文将... 当谈论网络设备时，我们常常会听到路由器、交换机和光猫这几个名词。它们是构建现代网络基础设施的关键组成

阅读更多...

Python开发简易网络服务器的示例详解(新手入门)

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

阅读更多...

Go语言网络故障诊断与调试技巧

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

阅读更多...

Linux中压缩、网络传输与系统监控工具的使用完整指南

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压：数据存储与传输的优化核心1. zip/unzip：通用压缩格式的便捷操作2.

阅读更多...