TPAMI:用于面部情绪识别的脑机耦合学习方法

2023-11-22 03:30

本文主要是介绍TPAMI:用于面部情绪识别的脑机耦合学习方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

f62b0a0b6f3348983c89398a994f138b.png

杭州电子科技大学孔万增教授团队最新研究成果“Brain-Machine Coupled Learning Method for Facial Emotion Recognition”论文发表在人工智能领域的国际顶级学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(简称TPAMI)上。

cce3685b4ea2d21ad2259db5cb19d775.png

文章链接:https://ieeexplore.ieee.org/document/10073607

机器学习的神经网络模型在面部情绪识别等视觉任务中具有良好的前景,但是在小样本数据集训练出来的模型的泛化能力是有限的。与机器不同的是,人脑可以有效地从少量样本中实现所需的信息,从而完成视觉任务。为了学习大脑的泛化能力,本文提出了脑机耦合学习(Brain-Machine Coupled Learning, BMCL)方法,让神经网络同时学习机器的视觉知识和大脑的认知知识。脑机耦合学习利用视觉图像和脑电图(Electroencephalogram, EEG)信号来耦合训练视觉和认知领域的模型。每个领域的模型由公共和私有两类交互通道组成。因为EEG信号可以反映大脑的活动,所以大脑的认知过程由模型按照逆向工程进行解码,通过解码面部表情图像诱发的EEG信号,视觉领域的公共通道可以接近认知领域的认知过程。此外,每个私有通道使用对抗性策略提取每个领域特有的知识,学习之后,BMCL无需脑电信号参与,通过将视觉域的两个通道进行串联,融合机器的视觉知识和从大脑学到的认知知识来对面部表情图像进行分类。

# 研究背景

借助于芯片处理能力(Graphics Processing Unit, GPU)和精心设计的网络架构,如卷积神经网络(Convolutional Neural Network, CNN)的大幅提高,深度学习技术已经取得了重大进展。与人脑不同,经过训练的深度模型依赖于所采用的训练集,而不是通用的原理。因此,深度网络在解释面部情绪识别(Facial Emotion Recognition, FER)等视觉任务方面的能力不如人脑。样本不足容易导致深度网络过拟合和泛化不足。为了提高泛化能力,一些方法试图从人脑中学习认知知识。虽然一些认知神经科学的研究已经调查了视觉皮层和大脑的哪些部分负责这种认知过程,但是对认知过程的研究仍处于初步阶段。此外,人脑和机器在解释视觉任务的原理和结构方面存在差异。因此,虽然现在的神经科学已经取得了一些成果,但仍然没有方法能够直接实现机器来模仿人脑的认知过程。

4eceeb1dbaf6a5fd6543462686e5dc62.png

图1 基于特征映射的方法概述

除了直接模仿之外,逆向工程也是一种从大脑中提取认知信息的可行方案。如图1所示,基于特征映射的方法,分别训练视觉域(①+④)和分析EEG信号以识别大脑在视觉任务中采用的特征空间(②+⑤)。然后,将脑电信号的特征作为目标表征,进一步得到认知域和视觉域之间的特征映射③。通过映射,视觉域的表征可以被转移到认知域。最后,认知域的分类器可以应用于被转移的表征,以提高任务表现(①+③+⑤)。然而,这些方法忽略了大脑复杂的认知过程以及人脑和机器之间的不同机制。因此,表征映射不能填补两个独立领域之间的全部间隙,不能引入足够的认知知识。如果没有足够的认知知识,这些方法就很难提供具有良好泛化能力的结果。

本文提出了一种脑机耦合学习方法,用于面部情绪识别。与将视觉表征映射到认知信号判别流形不同的是,本文希望按照逆向工程的思路,探索神经网络适应大脑认知过程的能力(①≈②)。通常来说,认知和视觉表征被认为是两个具有关联性的不同领域。脑机耦合学习方法的目的是为了缓解由于领域转移而导致的性能下降。此外,本文有效地利用了视觉领域的公共特征和私有领域特征,用来获得良好的性能。具体来说,每个领域的模型将被分为两个交互通道,即公共通道和私有通道。这两个通道的网络将被同时训练,以获得公共和私有的表征。训练结束后,只有视觉领域的两类通道被串联起来,对面部表情图像进行分类。视觉域的共同通道的模型可以接近人脑的认知过程。因此,机器将拥有类似于人类思维模式的能力,从而提高FER面部情绪识别任务的性能。

# 研究方法

8fbbb6ff7ac50ef18c9adc461cb11c35.png

图2 脑机耦合学习方法概述

如图2所示,本文为每个领域构建私有通道,并在认知领域和视觉领域之间构建公共通道。公共通道采用共享参数编码函数,该函数学习捕捉给定的成对输入样本在认知域和视觉域之间的共同点。认知域的私有通道采用一个私有编码函数,学习捕捉认知域的私有信息。视觉域的私有通道采用私有编码函数,学习捕捉视觉域的私有信息。在得到公共和私有的表征后,同一领域的两类表征被简单地串联起来,用于后续的识别任务。最后使用串联的表征通过K-NearestNeighbor(KNN)实现识别任务。

6e82fc7632a9c02de6304b367144e03e.png

图3 BMCL的学习框架

如图3所示,训练中包括三种不同类型的损失。第一类损失是公共通道的损失。这种损失在两个域之间的共同子空间中学习一个共同的表示。使用这种损失,可以最小化跨模式的异质性。第二类损失是为私有表征设计的。这两个私有表征是在两个具有分布差异约束的私有子空间中学习的。这种约束有助于最大化跨模式的异质性差距。第三类损失与识别任务有关。加入这种损失,整个模型的训练就会趋向于产生正确的结果。基于上述描述,模型的整体学习是通过最小化来进行的。整体损失为 ,其中, 是交互权重,决定每个正则化成分对整体损失的贡献。这些组件的每一个损失都负责实现所需的子空间特性。

# 实验分析

表1 CFAPS数据集上的性能比较

0bcb242c8dddca85741d5bb88cc383a5.png

将BMCL与这些先进的网络在中国化面孔情绪图片系统(Chinese Facial Affective Picture System, CFAPS)进行了比较评估。因为CFAPS的样本数量有限,所以这些网络的训练是基于预训练的模型。为了公平比较,BMCL中采用的全连接(Fully Connected, FC)层和KNN作为分类器,对这些模型的特征输出进行分类。如表1所示,BMCL在分类准确率、精确率、召回率和F1得分方面具有最好的性能。虽然CNNNet的性能不如ResNet、DenseNet和VGGNet等一些方法,但是其作为BMCL视觉域特征提取网络,经过耦合学习仍然可以提供更好的结果。这证明了在耦合学习之后,BMCL可以借助认知领域的信息提升性能。另外,经过实验验证,BMCL在几个公共数据集上都具有出色的性能,从脑电信号中训练出来的BMCL方法在新的数据集上也具有良好的泛化能力,并且可以应用于其他网络模型,展示了其实际应用的潜力。

# 结论

本文提出了一种新颖的脑机耦合学习方法,让神经网络同时学习机器的视觉知识和大脑的认知知识,使神经网络产生类似于大脑的认知知识,提高了网络的泛化能力。对于FER任务,用所提出的耦合学习方法对面部表情图像进行分类,通过对脑电信号和视觉图像的耦合学习,所提出的方法的性能优于公共数据集上的大多数最先进的方法。

该项研究成果得到了国家重点研发计划国际合作重点专项,国家自然科学基金企业创新联合基金重点项目、区域创新联合基金重点项目、浙江省脑机协同智能重点实验室等项目的支持。

# 作者简介

刘栋军,戴玮辰(共同一作),章杭奎,金宣妤,曹建庭,孔万增(通讯作者)

通讯作者单位:杭州电子科技大学计算机学院 浙江省脑机协同智能重点实验室

# 通讯作者简介

孔万增,博士,杭州电子科技大学教授,杭州电子科技大学计算机学院党委书记,兼任脑机协同智能技术(科技部)国际联合研究中心副主任,浙江省脑机协同智能重点实验室主任。长期从事人工智能与模式识别、嵌入式可穿戴计算、脑机交互与认知计算等方面的工作。多次在国际顶级期刊和顶级会议上发表学术成果。

—— End ——

仅用于学术分享,若侵权请留言,即时删侵!

更多阅读

他山之石丨Nature:AI模型越大越好吗?

Nature子刊:硬膜外刺激脊髓治疗脑卒中

意念控物——让科幻变成现实

上海交大教授卢策吾深度解读“具身智能”

预见2023:《2023年中国脑机接口行业全景图谱》

这个脑机接口实现每分钟超60个单词的意念说话

人类意识的大脑模式

dcf06b548680d547e9ef687b76c47cd6.png

   加入社群  

欢迎加入脑机接口社区交流群,

探讨脑机接口领域话题,实时跟踪脑机接口前沿。

加微信群:

添加微信:RoseBCI【备注:姓名+行业/专业】。

加QQ群:913607986

  欢迎来稿  

1.欢迎来稿。投稿咨询,请联系微信:RoseBCI

2.加入社区成为兼职创作者,请联系微信:RoseBCI

2f8f3a692bc95876c6af5e37b93a76a0.png

41d45eac4a23d9fa22a1113c2cf83cbf.png

一键三连「分享」、「点赞」和「在看」

不错每一条脑机前沿进展 ~ 

这篇关于TPAMI:用于面部情绪识别的脑机耦合学习方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/407183

相关文章

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Maven 配置中的 <mirror>绕过 HTTP 阻断机制的方法

《Maven配置中的<mirror>绕过HTTP阻断机制的方法》:本文主要介绍Maven配置中的<mirror>绕过HTTP阻断机制的方法,本文给大家分享问题原因及解决方案,感兴趣的朋友一... 目录一、问题场景:升级 Maven 后构建失败二、解决方案:通过 <mirror> 配置覆盖默认行为1. 配置示

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

Java中Map.Entry()含义及方法使用代码

《Java中Map.Entry()含义及方法使用代码》:本文主要介绍Java中Map.Entry()含义及方法使用的相关资料,Map.Entry是Java中Map的静态内部接口,用于表示键值对,其... 目录前言 Map.Entry作用核心方法常见使用场景1. 遍历 Map 的所有键值对2. 直接修改 Ma

Mybatis Plus Join使用方法示例详解

《MybatisPlusJoin使用方法示例详解》:本文主要介绍MybatisPlusJoin使用方法示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录1、pom文件2、yaml配置文件3、分页插件4、示例代码:5、测试代码6、和PageHelper结合6

Python基于微信OCR引擎实现高效图片文字识别

《Python基于微信OCR引擎实现高效图片文字识别》这篇文章主要为大家详细介绍了一款基于微信OCR引擎的图片文字识别桌面应用开发全过程,可以实现从图片拖拽识别到文字提取,感兴趣的小伙伴可以跟随小编一... 目录一、项目概述1.1 开发背景1.2 技术选型1.3 核心优势二、功能详解2.1 核心功能模块2.

Java中实现线程的创建和启动的方法

《Java中实现线程的创建和启动的方法》在Java中,实现线程的创建和启动是两个不同但紧密相关的概念,理解为什么要启动线程(调用start()方法)而非直接调用run()方法,是掌握多线程编程的关键,... 目录1. 线程的生命周期2. start() vs run() 的本质区别3. 为什么必须通过 st

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

C#之List集合去重复对象的实现方法

《C#之List集合去重复对象的实现方法》:本文主要介绍C#之List集合去重复对象的实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C# List集合去重复对象方法1、测试数据2、测试数据3、知识点补充总结C# List集合去重复对象方法1、测试数据