2022清华暑校笔记之L2_1神经网络的基本组成

2024-03-05 22:30

本文主要是介绍2022清华暑校笔记之L2_1神经网络的基本组成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2022清华大学大模型交叉研讨课

L2 Neural Network basics

1 神经网络的基本组成

1.1 神经元

  • 单个的神经元:

    在这里插入图片描述
    将权重向量(矩阵)和输入向量点乘,得到一个标量值,加上偏置b(标量)后送入非线性的激活函数f,得到输出。

1.2神经网络

  • 多个神经元构成单层神经网络:

    在这里插入图片描述
    多个神经元时,权重由向量变成了矩阵(3*3),偏置b由标量变成了向量(b1,b2,b3)。
  • 堆叠单层神经网络得到多层神经网络:
    在这里插入图片描述
    我们可以从输入开始一次计算每一层的结果,每一层的结果都是上一层的结果经过线性变化和激活函数得到的。

1.3 激活函数

  • why use f?为什么要用非线性函数来激活?
    在这里插入图片描述
    • 如图,假设我们的网络中只存在线性变换的话,两层网络之后,我们发现h2完全可以用初始的输入数据只经过一次变化后得到。
    • 因此,单层的表达能力和多层的表达能力是一致的,为了防止网络的塌陷,增加网络的表达能力,来拟合更复杂的函数,我们引入非线性的网络结构。
  • 常见的非线性激活函数

1.4 输出层

  • 根据不同的输出形式确定输出层:
    • linear output
      • 在隐藏层后增加线性层直接输出。
      • 适用于回归问题。
    • Sigmoid
      • 先用普通的线性层得到一个值,然后运用sigmoid激活函数,将输出压到0-1这个区间内。
      • 适用于二值分类问题。
    • Softmax
      • 先用最后的隐层计算一个线性层,得到一个输出结果z,然后代入函数 y i = softmax ⁡ ( z ) i = exp ⁡ ( z i ) ∑ j exp ⁡ ( z j ) y_{i}=\operatorname{softmax}(z)_{i}=\frac{\exp \left(z_{i}\right)}{\sum_{j} \exp \left(z_{j}\right)} yi=softmax(z)i=jexp(zj)exp(zi)
      • 目的:消除了z为负数时的影响;使得所有的输出类值和为1,得到了不同类别的概率分布。
      • 常解决多分类的问题。

2 训练

2.1 训练目标:

  • 预测的目标:降低均方差(回归问题)
  • 分类的目标:最小化交叉熵
    在这里插入图片描述
    如果正确答案为第一个类别的话,我们可以计算出交叉熵为0.74;如果正确答案为第二个类别的话,可以计算出交叉熵为1.74;如果正确答案为第三个类别的话……

2.2 如何更新

  • 梯度下降的概念: 在这里插入图片描述
    • 我们每一次缩小一点损失函数
    • 每一次先计算损失函数对于参数的梯度,即得到了损失函数对于参数变化最快的地方。由于我们要取最小值,因此我们选择负方向且绝对值最大的方向。
  • 梯度下降的做法:
    • 对于单个输入(可以看作一维参数),求偏导
    • 对于n个输入时,见下图,可以得到结果梯度矩阵。
      在这里插入图片描述
  • 梯度下降的窍门:
    • 连续求导
    • 反向传播算法
      • 前向传播指的是按照边指向的顺序,其中有向边的作用为传递值。
        在这里插入图片描述
      • 为了求得最后的输出对于某个输入值的梯度,我们使用和计算方向相反的方向。
      • 以其中一段为例,介绍单个节点的计算方法:
        在这里插入图片描述
        • 将上游的梯度和本地的梯度相乘,即可计算出下游的梯度,以此类推可以继续求得再下游的梯度。
          在这里插入图片描述

3 词项表示Word2Vec

3.1 Sliding Box:一个固定大小的滑动窗口

当窗口移动到句子的某一端时,只有target

3.2 CBOW:根据context,预测target在这里插入图片描述

将never和late用one-hot向量表示,将这两个向量做一个平均,然后将词向量变成词表大小,最后通过softmax得到概率分布。

3.3 skip-gram:根据target,预测context

  • 由于模型预测出多个结果的难度过大,因此我们将任务分解,一个一个来。

3.4 改进:

3.4.1 弊端: full softmax时,若遇到大的词表,再见过反向传播和梯度下降时,速度会比较慢。
3.4.2 两种提高计算效率的方法:
  • 负采样
    理解参考
    • 只采样一小部分,按照词的频率进行采样。
      P ( w i ) = f ( w i ) 3 / 4 ∑ j = 1 V f ( w j ) 3 / 4 P\left(w_{i}\right)=\frac{f\left(w_{i}\right)^{3 / 4}}{\sum_{j=1}^{\mathbb{V}} f\left(w_{j}\right)^{3 / 4}} P(wi)=j=1Vf(wj)3/4f(wi)3/4
    • 3/4为经验值,为了稍微提高低频词的采样频次。
  • 分层softmax
3.4.3 Other tips:
  • sub-sampling:平衡常见词和罕见词
    • 常见词出现频率高,涵盖的语义不太丰富,罕见词则反之。
      1 − t / f ( w ) 1-\sqrt{t / f(w)} 1t/f(w)
    • 若一个词出现的频率越高,则他被去掉的可能性越大
  • soft sliding window
    • 更远的词应该更少被考虑

这篇关于2022清华暑校笔记之L2_1神经网络的基本组成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/778016

相关文章

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性:

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置(如匹配策略、转换器),可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例:简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

SQL BETWEEN 语句的基本用法详解

《SQLBETWEEN语句的基本用法详解》SQLBETWEEN语句是一个用于在SQL查询中指定查询条件的重要工具,它允许用户指定一个范围,用于筛选符合特定条件的记录,本文将详细介绍BETWEEN语... 目录概述BETWEEN 语句的基本用法BETWEEN 语句的示例示例 1:查询年龄在 20 到 30 岁

mysql中insert into的基本用法和一些示例

《mysql中insertinto的基本用法和一些示例》INSERTINTO用于向MySQL表插入新行,支持单行/多行及部分列插入,下面给大家介绍mysql中insertinto的基本用法和一些示例... 目录基本语法插入单行数据插入多行数据插入部分列的数据插入默认值注意事项在mysql中,INSERT I

mapstruct中的@Mapper注解的基本用法

《mapstruct中的@Mapper注解的基本用法》在MapStruct中,@Mapper注解是核心注解之一,用于标记一个接口或抽象类为MapStruct的映射器(Mapper),本文给大家介绍ma... 目录1. 基本用法2. 常用属性3. 高级用法4. 注意事项5. 总结6. 编译异常处理在MapSt

MyBatis ResultMap 的基本用法示例详解

《MyBatisResultMap的基本用法示例详解》在MyBatis中,resultMap用于定义数据库查询结果到Java对象属性的映射关系,本文给大家介绍MyBatisResultMap的基本... 目录MyBATis 中的 resultMap1. resultMap 的基本语法2. 简单的 resul

Java 枚举的基本使用方法及实际使用场景

《Java枚举的基本使用方法及实际使用场景》枚举是Java中一种特殊的类,用于定义一组固定的常量,枚举类型提供了更好的类型安全性和可读性,适用于需要定义一组有限且固定的值的场景,本文给大家介绍Jav... 目录一、什么是枚举?二、枚举的基本使用方法定义枚举三、实际使用场景代替常量状态机四、更多用法1.实现接

git stash命令基本用法详解

《gitstash命令基本用法详解》gitstash是Git中一个非常有用的命令,它可以临时保存当前工作区的修改,让你可以切换到其他分支或者处理其他任务,而不需要提交这些还未完成的修改,这篇文章主要... 目录一、基本用法1. 保存当前修改(包括暂存区和工作区的内容)2. 查看保存了哪些 stash3. 恢

MySQL基本查询示例总结

《MySQL基本查询示例总结》:本文主要介绍MySQL基本查询示例总结,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Create插入替换Retrieve(读取)select(确定列)where条件(确定行)null查询order by语句li