详细解读论文 CPC:Representation Learning with Contrastive Predictive Coding

本文主要是介绍详细解读论文 CPC:Representation Learning with Contrastive Predictive Coding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Abstract:

​该篇论文提出了一种完全的无监督的方法,旨在从高维的特征空间中提取有效特征同时舍弃掉一些更加局部的特征。简单来说目的就是更加有效的提取特征,提取更加global的"slow features"。该方法较为通用,在很多任务中都可以得到应用,文中列举了:语音,图像,文本,3D领域强化学习等方向的应用。

Method:

​无监督学习并没有label来引导网络学习,就像一个野外长大的孩子,没有大人教他何为对错,只能从不断接触到的新的环境中寻找规律。为了提取到前面描述的“良好的“特征,该篇论文的方法是:增大当前状态特征c与未来输入特征x的互信息。为什么要这么做呢?如果我能用当前的输入在一定程度上去”预测“后面的输入,那么我就已经找到了输入的某些规律,也就是提取到的特征能够很好的描述输入数据的一些共同之处。

​那么如何衡量特征间的互信息呢?用x指代输入,用c指代上下文,文中指出假如仅仅用p(x|c)来代表互信息不是最优的。因为使用这种条件概率衡量互信息有一个弊端:例如对于图像,这里的高维特征c所含的信息是要远少于输入图像的信息量的,这样来衡量当前状态特征c与未来输入x的互信息并不是最优的。我的理解是:由于c自身所携带的信息较小,所以当以优化条件概率p(x|c)为目的的模型在训练时可能导致用c预测的x会忽略一些信息。取而代之文中使用下式来衡量x和c的互信息大小:

这个式子可以说是本文的核心。至于为何使用log函数中类似概率密度的形式,后面会有解释。

如图所示,zt为encoder的输出,ct为自回归模型当前时刻的输出。

​有了这个式子,关键就在于如何表示 这个概率密度,这里就有了一个很难理解的函数:

这里的Wk为一个转换矩阵使得Wkct 与encoder编码x后得到的特征z形状相同,对预测的每一个步长k都有一个对应的Wk。

这个函数满足

文中提到,其实任意正实函数都可作为这个fk函数使用,如何理解这个正实呢,我的直观的理解是当encoder已经能够很好的提取特征时,对xt+k提取的特征zt+k和Wkct更相似时这个函数就越大即可。那么为什么这样的一个正实函数就能正比于前面提出的概率密度呢?

首先论文提出了一个基于NCE的损失函数,把它称作InfoNCE:

在这里插入图片描述

​其中X={x1,…,xN}为包含一个从分布p(x|c)采样得到的正样本以及N-1个从分布p(x)中采样得到的负样本。对于这里正负样本的含义我的理解是,从前者条件概率分布中采样得到的正样本代表以我现在及过去输入信息的特征ct为条件距现在k个步长的真实输入,而负样本则是我想让网络学习提取特征的这一堆输入之外的其他的输入,这个输入可以是任意的。

​文中说只要优化这个损失函数就能使最终优化好的模型满足 这个式子,证明如下:

在这里插入图片描述

​这里等式左边代表在N个输入中xi是来自分布p(x|c)的正样本概率,这个概率即为InfoNCE的最优概率,可以简单理解为优化InfoNCE就是要让这个概率尽量大。这里第一个等号较难理解,等式右边分子代表N个样本中,xi为来自分布p(x|c)的正样本,其余N-1个样本为来自分布p(x)的负样本的概率;分母代表x1,x2,…,xN是来自分布p(x|c)的正样本概率之和。打个比方,这个概率的意义类似于,已知我们之间有一个叛徒,这个叛徒是第i个人的概率。第二个等号就是分子分母约分的结果。

​对比化简后的式子和InfoNCE可以发现优化后的f满足正比于之前的概率密度,即得证。

我们可以估计出,xt+k和ct之间的互信息满足:

可以看出当样本数N增大时,该互信息的下界增大,又因为每个batch中正样本只有一个,所以负样本越多,这个互信息的下界越大。

Experiments:

文中列举了cpc在4个领域的应用,在这里只简单介绍下audio的实验结果,具体实验设置文中有详细描述。

​由左表中可以看出,在语音识别的两项任务中,特别是speaker classification任务中,cpc这种无监督的方法的准确率已经十分接近监督学习的方法。右表展示了预测步长以及负样本采样对结果的影响。

Summary:

​CPC是一种完全无监督的训练特征提取的方法,它的可移植性很强,能适用于多种任务,效果上在很多任务中能够媲美甚至超越现有的监督方法。

这篇关于详细解读论文 CPC:Representation Learning with Contrastive Predictive Coding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/415405

相关文章

SpringBoot整合Flowable实现工作流的详细流程

《SpringBoot整合Flowable实现工作流的详细流程》Flowable是一个使用Java编写的轻量级业务流程引擎,Flowable流程引擎可用于部署BPMN2.0流程定义,创建这些流程定义的... 目录1、流程引擎介绍2、创建项目3、画流程图4、开发接口4.1 Java 类梳理4.2 查看流程图4

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

Python UV安装、升级、卸载详细步骤记录

《PythonUV安装、升级、卸载详细步骤记录》:本文主要介绍PythonUV安装、升级、卸载的详细步骤,uv是Astral推出的下一代Python包与项目管理器,主打单一可执行文件、极致性能... 目录安装检查升级设置自动补全卸载UV 命令总结 官方文档详见:https://docs.astral.sh/

Python包管理工具核心指令uvx举例详细解析

《Python包管理工具核心指令uvx举例详细解析》:本文主要介绍Python包管理工具核心指令uvx的相关资料,uvx是uv工具链中用于临时运行Python命令行工具的高效执行器,依托Rust实... 目录一、uvx 的定位与核心功能二、uvx 的典型应用场景三、uvx 与传统工具对比四、uvx 的技术实

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

Springboot3+将ID转为JSON字符串的详细配置方案

《Springboot3+将ID转为JSON字符串的详细配置方案》:本文主要介绍纯后端实现Long/BigIntegerID转为JSON字符串的详细配置方案,s基于SpringBoot3+和Spr... 目录1. 添加依赖2. 全局 Jackson 配置3. 精准控制(可选)4. OpenAPI (Spri

MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)

《MySQL复杂SQL之多表联查/子查询详细介绍(最新整理)》掌握多表联查(INNERJOIN,LEFTJOIN,RIGHTJOIN,FULLJOIN)和子查询(标量、列、行、表子查询、相关/非相关、... 目录第一部分:多表联查 (JOIN Operations)1. 连接的类型 (JOIN Types)

SpringBoot整合Apache Flink的详细指南

《SpringBoot整合ApacheFlink的详细指南》这篇文章主要为大家详细介绍了SpringBoot整合ApacheFlink的详细过程,涵盖环境准备,依赖配置,代码实现及运行步骤,感兴趣的... 目录1. 背景与目标2. 环境准备2.1 开发工具2.2 技术版本3. 创建 Spring Boot

使用Python实现base64字符串与图片互转的详细步骤

《使用Python实现base64字符串与图片互转的详细步骤》要将一个Base64编码的字符串转换为图片文件并保存下来,可以使用Python的base64模块来实现,这一过程包括解码Base64字符串... 目录1. 图片编码为 Base64 字符串2. Base64 字符串解码为图片文件3. 示例使用注意