CapsNet个人理解与总结

2024-02-17 16:32
文章标签 总结 理解 个人 capsnet

本文主要是介绍CapsNet个人理解与总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

CapsNet为解决CNN的缺点而生。其实回过头来再想一下神经网络和CNN这一系列的模型,他们放佛一直在强调特征的识别,通过什么样的方法能够更准确高效的识别图像的特征,就像CapsNet一直在强调他们的Net具有方向、大小等属性的识别和内部联系的生成一样。从这里我感觉出一些顶级Paper的魅力和特点所在,那就是从提出的创新点出发,所有的论点围绕创新点,所有的依据站在巨人的肩膀,解决前人没有解决的问题。那么这样对于读者来说,理解起来就不会很困难。创新点贯穿整篇文章,非常条理清晰,非常有说服力,确实值得我们去研读,去学习。

出发点

CNN是非常善于捕捉特征是否存在,因为CNN的卷积结构就是为此而设计,但是在探索特征属性之间的关系(比如相对位置关系、相对大小关系等,特征的方向)上,CNN力不从心。比如在下面第一幅图中,CNN对于两幅图的识别效果都是人脸,显然这是不正确的。从人类的视觉是别来说,人脸的各个部位都是有相对大小和位置关系的,人的多层视觉系统对于某一固定点的识别过程类似于解析树,从这一点出发,论文应用了前人提出的Capsule。

  例如,对于下面这幅图的识别过程:
  一个简单的CNN模型可以正确地提取鼻子,眼睛和嘴巴的特征,但是提取出来的特征会错误地激活神经元,得出脸部检测成功的结果。
  如果我们**将每个特征的概率标量表示替换成一个代表很多信息的向量,如,输出的不再是标量x,而是一个包含[可能性,方向,大小]的向量,那么我们就可以检测鼻子,眼睛和耳朵特征之间的方向和大小的一致性**, 得出最后的结论。

Capsule理解

Capsule是一组捕获特定特征各种参数的神经元,包括输出特征的可能性,文章通过应用一个非线性保证矢量输出的长度不超过1,这个非线性保持矢量的方向不变。我们将胶囊的输出向量称为活动向量,向量的长度表示检测特征的概率,向量的方向方向代表其参数(属性)。
  比如,下面的第一行表示神经元检测数字“7”的概率。2-D Capsule通过组合2个神经元形成,该Capsule在检测数字“7”时会输出一个2维向量。

  第二行中,输出的2维向量为v=(0, 0.9)和 v=(0, 0.3),大小表示为:√(0^2+0.9^2 )=0.9 和 :√(0^2+0.3^2 )=0.3;第三行中,输出的2维向量为v=(0.2, 0.87)和 v=(0.2, 0.19),向量的大小仍为0.9和0.3。在这里,我们随意给的0.2代表其向右旋转20度。当然,我们可以再添加两个神经元来捕捉特征的大小和笔画的粗细程度。

Capsule与传统neuron比较

参数更新

Capsule里面有两种参数,更新算法如下:

  • W_ij: 通过BP算法更新。
  • c_ij :通过routing-by-agreement更新,capsule论文中的方法是该原则的其中一种实现方法。
新颖的激活函数

使用一个非线性"squashing" 函数来将短矢量缩小到几乎为零,而长矢量缩小到略低于1的长度。

CapsNet网络结构

CapsNet是常规卷积层与capsule版全连接层的结合体,整体架构如下:

  第一层就是普通的CNN层,起像素级局部特征检测作用。原图像是28×28大小第一层采用256个9×9的卷积核,步长为1,得到输出矩阵大小为20×20×256。   第二层叫做PrimaryCaps层。PrimaryCaps层的计算过程具有多种理解方式,其中之一为,8个并行的常规卷积层的叠堆。
  矩阵的shape变换过程如图所示:
  第二层中每一步的详解如图所示:
  接下来,将第二层的输出转换成16×10维的向量组,得到第三层。在经过两个全连接和一个Sigmoid层,得到输出。

这篇关于CapsNet个人理解与总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/718357

相关文章

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

MySQL基本查询示例总结

《MySQL基本查询示例总结》:本文主要介绍MySQL基本查询示例总结,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Create插入替换Retrieve(读取)select(确定列)where条件(确定行)null查询order by语句li

Linux区分SSD和机械硬盘的方法总结

《Linux区分SSD和机械硬盘的方法总结》在Linux系统管理中,了解存储设备的类型和特性是至关重要的,不同的存储介质(如固态硬盘SSD和机械硬盘HDD)在性能、可靠性和适用场景上有着显著差异,本文... 目录一、lsblk 命令简介基本用法二、识别磁盘类型的关键参数:ROTA查询 ROTA 参数ROTA

spring IOC的理解之原理和实现过程

《springIOC的理解之原理和实现过程》:本文主要介绍springIOC的理解之原理和实现过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、IoC 核心概念二、核心原理1. 容器架构2. 核心组件3. 工作流程三、关键实现机制1. Bean生命周期2.

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

深入理解Apache Kafka(分布式流处理平台)

《深入理解ApacheKafka(分布式流处理平台)》ApacheKafka作为现代分布式系统中的核心中间件,为构建高吞吐量、低延迟的数据管道提供了强大支持,本文将深入探讨Kafka的核心概念、架构... 目录引言一、Apache Kafka概述1.1 什么是Kafka?1.2 Kafka的核心概念二、Ka