CapsNet个人理解与总结

2024-02-17 16:32
文章标签 总结 理解 个人 capsnet

本文主要是介绍CapsNet个人理解与总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

CapsNet为解决CNN的缺点而生。其实回过头来再想一下神经网络和CNN这一系列的模型,他们放佛一直在强调特征的识别,通过什么样的方法能够更准确高效的识别图像的特征,就像CapsNet一直在强调他们的Net具有方向、大小等属性的识别和内部联系的生成一样。从这里我感觉出一些顶级Paper的魅力和特点所在,那就是从提出的创新点出发,所有的论点围绕创新点,所有的依据站在巨人的肩膀,解决前人没有解决的问题。那么这样对于读者来说,理解起来就不会很困难。创新点贯穿整篇文章,非常条理清晰,非常有说服力,确实值得我们去研读,去学习。

出发点

CNN是非常善于捕捉特征是否存在,因为CNN的卷积结构就是为此而设计,但是在探索特征属性之间的关系(比如相对位置关系、相对大小关系等,特征的方向)上,CNN力不从心。比如在下面第一幅图中,CNN对于两幅图的识别效果都是人脸,显然这是不正确的。从人类的视觉是别来说,人脸的各个部位都是有相对大小和位置关系的,人的多层视觉系统对于某一固定点的识别过程类似于解析树,从这一点出发,论文应用了前人提出的Capsule。

  例如,对于下面这幅图的识别过程:
  一个简单的CNN模型可以正确地提取鼻子,眼睛和嘴巴的特征,但是提取出来的特征会错误地激活神经元,得出脸部检测成功的结果。
  如果我们**将每个特征的概率标量表示替换成一个代表很多信息的向量,如,输出的不再是标量x,而是一个包含[可能性,方向,大小]的向量,那么我们就可以检测鼻子,眼睛和耳朵特征之间的方向和大小的一致性**, 得出最后的结论。

Capsule理解

Capsule是一组捕获特定特征各种参数的神经元,包括输出特征的可能性,文章通过应用一个非线性保证矢量输出的长度不超过1,这个非线性保持矢量的方向不变。我们将胶囊的输出向量称为活动向量,向量的长度表示检测特征的概率,向量的方向方向代表其参数(属性)。
  比如,下面的第一行表示神经元检测数字“7”的概率。2-D Capsule通过组合2个神经元形成,该Capsule在检测数字“7”时会输出一个2维向量。

  第二行中,输出的2维向量为v=(0, 0.9)和 v=(0, 0.3),大小表示为:√(0^2+0.9^2 )=0.9 和 :√(0^2+0.3^2 )=0.3;第三行中,输出的2维向量为v=(0.2, 0.87)和 v=(0.2, 0.19),向量的大小仍为0.9和0.3。在这里,我们随意给的0.2代表其向右旋转20度。当然,我们可以再添加两个神经元来捕捉特征的大小和笔画的粗细程度。

Capsule与传统neuron比较

参数更新

Capsule里面有两种参数,更新算法如下:

  • W_ij: 通过BP算法更新。
  • c_ij :通过routing-by-agreement更新,capsule论文中的方法是该原则的其中一种实现方法。
新颖的激活函数

使用一个非线性"squashing" 函数来将短矢量缩小到几乎为零,而长矢量缩小到略低于1的长度。

CapsNet网络结构

CapsNet是常规卷积层与capsule版全连接层的结合体,整体架构如下:

  第一层就是普通的CNN层,起像素级局部特征检测作用。原图像是28×28大小第一层采用256个9×9的卷积核,步长为1,得到输出矩阵大小为20×20×256。   第二层叫做PrimaryCaps层。PrimaryCaps层的计算过程具有多种理解方式,其中之一为,8个并行的常规卷积层的叠堆。
  矩阵的shape变换过程如图所示:
  第二层中每一步的详解如图所示:
  接下来,将第二层的输出转换成16×10维的向量组,得到第三层。在经过两个全连接和一个Sigmoid层,得到输出。

这篇关于CapsNet个人理解与总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/718357

相关文章

Java Spring的依赖注入理解及@Autowired用法示例详解

《JavaSpring的依赖注入理解及@Autowired用法示例详解》文章介绍了Spring依赖注入(DI)的概念、三种实现方式(构造器、Setter、字段注入),区分了@Autowired(注入... 目录一、什么是依赖注入(DI)?1. 定义2. 举个例子二、依赖注入的几种方式1. 构造器注入(Con

Spring Boot 与微服务入门实战详细总结

《SpringBoot与微服务入门实战详细总结》本文讲解SpringBoot框架的核心特性如快速构建、自动配置、零XML与微服务架构的定义、演进及优缺点,涵盖开发环境准备和HelloWorld实战... 目录一、Spring Boot 核心概述二、微服务架构详解1. 微服务的定义与演进2. 微服务的优缺点三

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

JavaSE正则表达式用法总结大全

《JavaSE正则表达式用法总结大全》正则表达式就是由一些特定的字符组成,代表的是一个规则,:本文主要介绍JavaSE正则表达式用法的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录常用的正则表达式匹配符正则表China编程达式常用的类Pattern类Matcher类PatternSynta

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

MySQL基本查询示例总结

《MySQL基本查询示例总结》:本文主要介绍MySQL基本查询示例总结,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Create插入替换Retrieve(读取)select(确定列)where条件(确定行)null查询order by语句li