Nature:相同fMRI数据集多中心分析的变异性

2023-10-13 22:40

本文主要是介绍Nature:相同fMRI数据集多中心分析的变异性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、引言
许多科学领域的数据分析工作已经变得越来越复杂和灵活,这也意味着即使相同的数据,不同研究者采用的处理方法和步骤也可能不同,那么得到的结果也不尽然一致。近期,Nature杂志发表一篇题目为《Variability in the analysis of a single neuroimaging dataset by many teams》的研究论文,该研究通过要求70个独立团队分析相同的fMRI数据集,测试相同的9个预先假设,来评估功能磁共振成像(fMRI)结果的这种灵活性的效果。分析方法的灵活性体现在没有两个团队选择相同的方式来分析数据。这种不确定性导致了假设检验结果的巨大差异。报告结果的差异与分析方法的多个方面有关。研究人员的预测市场显示,即使是了解数据集的研究人员,也过高估计了重要发现的可能性。该研究结果表明,分析的灵活性可以对科学结论产生重大影响,并在fMRI分析中识别出可能与变异性有关的因素。该研究的结果强调了验证和共享复杂分析工作的重要性,并说明了对相同数据执行和报告多重分析的必要性。此外,该研究还讨论了可用于减轻与分析变异性有关的问题的潜在方法。
二、背景
科学领域的数据分析工都有着大量的分析步骤,这些步骤涉及许多可能的选择。模拟研究表明,分析选择的不同可能对结果产生重大影响,但其程度及其在实践中的影响尚不清楚。最近的一些心理学研究通过使用多个分析人员的方法解决了这一问题。在这种方法中,大量的小组分析同一数据集,研究发现分析小组的行为结果有很大的差异。在神经影像学分析复制和预测研究(NARPS)中,该研究将类似的方法应用于分析工作流程复杂且变化多样fMRI领域。研究者的目标是以最高的生态效度来评估分析灵活性对fMRI结果的实际影响程度。此外,研究者们使用预测市场(Prediction markets)来测试该领域的同行是否能够预测结果以及估计该领域研究人员对分析结果变异性程度的信念。
三、结果
1.跨团队的结果变异性
NARPS的第一个目标是评估分析相同数据集的独立团队的结果在现实中的变异性。该数据集包括来自108个被试的fMRI数据,每个被试执行一个任务两个版本中的一个,该任务之前被用于研究风险决策。这两个版本的设计是为了解决在任务中关于增益和损耗分布对神经活动影响的争论(数据信息见原文辅助材料)。。
在向70个团队(其中69个团队以前发表过fMRI)提供了原始数据和可选的数据集预处理版本(使用fMRIPrep)后,他们被要求对数据进行分析,以测试9个事先假设(表1),每个假设都包含了与任务特定特征相关的特定脑区活动的描述。分析时间为100天的,各小组需要在全脑校正分析(Whole-brain-corrected analysis)的基础上,报告每个假设是否得到了支持(是或否)。此外,每个小组提交了一份详细的分析方法报告,以及支持每个假设检验的无阈值和有阈值统计图(表2,3a)。为了进行生态效度研究,给这些分析团队唯一的指令就是像往常在自己的实验室里一样进行分析工作,并根据他们自己的标准报告二元决策,即假设中描述的特定区域的全脑校正结果。在预测市场关闭之前,数据集、报告和集合都是保密的。
在这里插入图片描述 表1
在这里插入图片描述
表2
在这里插入图片描述
表3

总体而言,不同假设之间报告的显著性结果的比率不同 (图1,表1)。只有一个假设(假设5)的显著性结果的比率较高(84.3%),而其他三个假设的在团队间有着一致非显著性结果(只有5.7%报告为显著性结果)。而剩下的5个假设结果比率是各不相同的,从21.4%到37.1%的团队报告了一个显著的结果。不同团队之间结果的差异程度是由报告结果与大多数团队不同的团队所占的比例来衡量的。平均来说,20%团队报告的结果与大多数团队不同。假设最大可能的偏差为50%,那么20%差异结果的观察分数介于团队之间的完全一致性和完全随机之间,这表明分析的选择对报告结果有着重要影响。

在这里插入图片描述
图1

2.与分析变异性有关的因素
为了检验报告的二元结果中分析变异性的来源,研究者们分析了团队使用的Pipeline以及他们提供的无阈值和阈值统计图。没有两个团队拥有相同的Pipeline。排除一些团队(表3b)后,65个团队的阈值映射和64个团队的无阈值映射(z-或t-统计)被纳入分析。
3.报告结果的变异性
一组混合效应逻辑回归模型(mixed-effectslogistic regression models)确定了与报告结果相关的几个分析变量和图像特征(表3c)。其中最显著的影响因素是空间平滑度;无阈值统计图较高的估计平滑度(使用FSL的估计平滑度函数)与更大显著性结果的可能性相关(P <0.001,delta pseudo-R2= 0.04;在半最大值处的平均全宽9.69mm,跨队距离2.50- 21.28mm)。值得注意的是,尽管估计的平滑度与应用的平滑核的宽度有关(r = 0.71;中位数应用平滑5mm,团队间0-9mm)但在单独的分析中,应用平滑值本身与阳性结果没有显著的相关,这表明相关自于分析步骤,而不是平滑(例如头部运动的建模;P= 0.014)。使用的软件包对结果也有影响(P= 0.004, delta pseudo-R2=0.04; n = 23 (SPM), n = 21 (FSL), n = 7 (AFNI)和n = 13(其他软件包),与SPM相比,FSL与所有假设显著结果的可能性更高;让步比=6.69),另外不同的多重校正方法对结果也有影响(P= 0.024, deltapseudo-R2= 0.02: n = 48(参数),n = 14(非参数),n = 2(其他)),采用参数校正方法的检测率高于非参数方法。使用标准化步骤预处理数据与使用自定义预处理pipeline,或使用用头部运动参数建模相比,未发现显著影响。非参数bootstrap分析证实了空间平滑度的显著影响,但对多重测试和软件包的影响提供了不一致的支持;由于统计能力较低,这些结果应谨慎解释。
4.阈值统计图的变异性
通过分析研究小组提交的统计图,进一步探讨分析变异性的性质。阈值映射是高度稀疏的。所有体素的阈值映射之间的二元一致性较高(假设的中位数百分比一致性在93%到99%之间),这主要反映了那些体素不活跃的一致性。然而,在所有团队中都激活的体素重叠非常低(假设的中位数相似性从0.00到0.06)。这可能反映了每个团队发现的激活体素数量的变异性;对于每个假设,活跃体素的数量在团队中从0到数万个之间变化(表4a)。对激活体素重叠的分析表明,在给定的假设条件下,最频繁激活的体素中激活的团队比例在0.23到0.77之间(附图1)。
在这里插入图片描述
表4
在这里插入图片描述
附图1
5.无阈值统计图的变异性
对团队间无阈值z统计图的相关性分析表明,对于每个假设,拥有大的cluster的研究团队之间具有着很强正相关(图2,附图2)。所有无阈值映射对(表4b)之间的平均Spearman相关是中等的(假设间的平均相关性范围为0.18-0.52),在分析团队的主聚类中相关性更高(假设间的相关性范围为0.44 -0.85)。对无阈值映射(相当于tau-squared)的体素异构性进行的分析表明,在许多情况下,团队之间的差异很大,是不同数据集的预期差异的几倍(附图3a)。
在这里插入图片描述
图2
在这里插入图片描述
附图2
在这里插入图片描述
附图3

对于假设1和假设3,有7个团队的一个子集,其无阈值映射与主大多数团队的映射不相关。通过对假设1和假设3的反向相关聚类的平均map图进行比较,可以证实该map图与总体任务激活map高度相关(r= 0.87)。进一步的分析表明,有4个团队使用的模型没有恰当地将增益的参数效应与整体任务激活分开;由于价值系统激活与任务激活之间存在对抗关系,该模型的模型误定导致了具有增益参数效应的对抗关系。
无阈限映射的总体相关与报告的二元结果之间的分歧(即使在高度相关的集群)表明,局部结果的差异可能是由于与多重比较校正有关的程序和团队对感兴趣区域(ROIs)的主观决定造成的。为了测试这一点,研究者在每个假设的所有团队的无阈值映射上应用了一致的阈值方法和ROI的解剖定义。结果表明,即使使用已知的自由的修正方法和标准的区域解剖定义,不同结果的差异程度在质量上依旧与实际报告的相似(附图4)。
在这里插入图片描述
附图4
该研究使用基于图像的元分析来评估团队间的一致性,在FDR校正后(附图3b),除了假设9之外,所有假设都显示出显著性的激活体素(active voxels),并为假设2、4、5和6提供了验证性证据。这些结果表明,在单个团队上的不一致结果构成了团队结果合并时的一致性结果的基础。

6.预测市场
NARPS的第二个目标是测试该领域的同行是否能够预测结果,方法就是是利用预测市场这一在风险决策中的常用方法。在这个市场中,研究人员根据科学分析的结果进行交易,并根据业绩获得奖金。预测市场已经被用来评估社会科学中科学假设的可复制性,并揭示了市场价格和实际科学结果之间的相关性。该进行了两个独立的预测市场:一个是来自分析团队成员组成的市场(团队成员市场),另一个是没有参与分析的研究人员组成的独立市场(非团队成员市场)。在所有分析小组提交了他们的结果(这些结果是保密的)之后,市场连续开放10天,持续时间1.5个月。在每个市场,交易员都会得到价值50美元的代币,并通过在线市场平台进行交易,交易对象是报告每个假设(即基本值)显著性结果的团队的比例。市场价格是交易员总体信念的衡量指标,反映的是对每个假设报告显著性结果的团队所占比例。总体而言,n= 65名交易员在非团队成员市场交易活跃,n= 83名交易员在团队成员市场交易活跃。在股市收盘后,交易员的报酬根据他们在市场的表现而定的。市场分析是在开放科学框架(OSF)上预先注册的(https://osf.io/59ksz/)。请注意,由于对最终市场价格(即市场的预测)进行了一些分析,每个市场的每个假设都有一个值,因此每个市场的观察次数都很低(n= 9),导致统计能力有限。因此,对结果的解释应当谨慎。
团队成员市场的预测范围从0.073到0.952 (M= 0.599, SD =0.325),非团队成员市场的预测范围从0.476到0.882 (M= 0.690, SD = 0.137)。除团队成员市场假设7外,所有预测均在基本值的95%置信区间之外(图1,表5a)。基本价值和市场预测之间的斯皮尔曼相关性在团队成员市场中显著(r = 0.962, P <0.001, n = 9),但非团队成员市场(r = 0.553, P = 0.122, n = 9)及两个市场的预测之间都不显著(r = 0.500, P = 0.170, n = 9)。
在这里插入图片描述
表5
Wilcoxon signed-rank检验表明,两个市场的交易员系统地高估了基本价值(团队成员:z= 2.886, P = 0.004, n = 9;非团队成员:z= 2.660, P = 0.008, n = 9)。团队成员市场的结果不是由报告显著结果(补充方法和补充结果)的团队的比例过高所驱动的。团队成员市场的预测与非团队成员市场的预测没有显著差异(Wilcoxon signed-rank检验,z = 1.035, P = 0.301, n = 9),但如上所述,该检验的统计能力有限。团队成员通常按照与自己团队的结果一致的方向交易(表5 b),这可能解释了为什么他们的集体预测比非团队成员的预测更准确(图1)。其他研究的结果发表在补充信息(附图5,表5)。
在这里插入图片描述
附图5

四、讨论
70个独立的分析团队分析了一个fMRI数据集,他们都使用了不同的pipeline,结果显示报告的二元结果有很大的差异,团队之间对大多数测试假设的分歧很大。对于每个假设,至少可以找到四种不同的分析方法,这些方法被该领域的研究小组在实践中使用,并产生了显著的结果。该研究结果强调了这样一个事实,即很难估计使用单一pipeline进行的单一研究的复现性。值得注意的是,对假设检验所依据的基础统计参数图的分析显示,其一致性比从这些推断得出的结果更大,并且使用元分析观察到了各团队激活区域的显著一致性。具有高度相关的基础无阈值统计图的团队报告了不同的假设结果(图2)。分析小组提交的工作流程描述和统计结果的详细分析确定了几个与重要结果的差异报告相关的常见分析变量,包括数据的空间平滑、分析软件的选择和校正方法;然而,后两种方法并没有得到非参数分析的一致支持。此外,研究者们确定了几个分析团队模型误定,这导致统计图与一些假设的多数相关。对分析结果进行的预测市场显示,研究人员普遍高估了各种假设得出重要结果的可能性,甚至是那些分析了数据的研究人员本身也反映出该领域研究人员明显的乐观偏见。
大量的分析可变性以及报告的假设结果在相同数据下的后续可变性表明,需要采取措施来提高数据分析结果的可重复性。首先,该研究建议使用诸如NeuroVault15之类的工具,将无阈值统计图与有阈值统计图作为标准共享。从长远来看,共享地图将允许使用基于图像的元分析,该发现它可以在实验室之间提供聚合结果。其次,数据和分析代码的共享应该成为一种常见的实践,以使其他人能够使用相同的数据运行自己的分析或验证所使用的代码。这些做法,再加上使用预先登记或注册的报告,将减少研究人员的自由度,但不会防止分析的变异性;然而,他们将确保变异性的影响是可以评估的。该研究中使用的所有数据和代码都是公开的,并且对于所有数据和结果都有一个完全可复制的执行环境。研究者们认为这可以作为今后研究的一个范例。
首先,研究者们建议使用多个pipeline分析复杂的数据集,最好由多个研究团队进行分析。要实现这种大规模的“多元宇宙分析(Multiverse analysis)”,需要开发自动化的统计分析工具(例如,FitLins18),它可以运行广泛的pipeline,并评估它们的收敛性。这种“多元宇宙分析”的不同版本已经在其他领域提出,但尚未得到广泛应用。另外,还应该使用模拟数据验证pipeline,以评估其有效性,并评估其对新数据的预测的影响。
该研究的结果强调开发新的实践和工具的迫切需要,以克服跨pipeline的变异性的挑战及其对分析结果的影响。尽管如此,研究者们认为fMRI可以为科学问题提供可靠的答案,这在跨团队的元分析结果中得到了强有力的证明。同时文献中也有大量的大规模研究和使用fMRI复制了许多发现。此外,虽然目前的研究仅限于分析单一的fMRI数据集,但似乎很有可能在其他研究领域也存在类似的变异性。在这些领域中,数据是高维的,分析工作流程是复杂和多变的。多元宇宙方法结合元分析被认为是解决这个问题的一个有希望的解决方案。

注:原文文献资料请加赵老师微信索要(kervin_zhao)

这篇关于Nature:相同fMRI数据集多中心分析的变异性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_41880581/article/details/106443296
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/206335

相关文章

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

Olingo分析和实践之EDM 辅助序列化器详解(最佳实践)

《Olingo分析和实践之EDM辅助序列化器详解(最佳实践)》EDM辅助序列化器是ApacheOlingoOData框架中无需完整EDM模型的智能序列化工具,通过运行时类型推断实现灵活数据转换,适用... 目录概念与定义什么是 EDM 辅助序列化器?核心概念设计目标核心特点1. EDM 信息可选2. 智能类

Olingo分析和实践之OData框架核心组件初始化(关键步骤)

《Olingo分析和实践之OData框架核心组件初始化(关键步骤)》ODataSpringBootService通过初始化OData实例和服务元数据,构建框架核心能力与数据模型结构,实现序列化、URI... 目录概述第一步:OData实例创建1.1 OData.newInstance() 详细分析1.1.1

Olingo分析和实践之ODataImpl详细分析(重要方法详解)

《Olingo分析和实践之ODataImpl详细分析(重要方法详解)》ODataImpl.java是ApacheOlingoOData框架的核心工厂类,负责创建序列化器、反序列化器和处理器等组件,... 目录概述主要职责类结构与继承关系核心功能分析1. 序列化器管理2. 反序列化器管理3. 处理器管理重要方

SpringBoot中六种批量更新Mysql的方式效率对比分析

《SpringBoot中六种批量更新Mysql的方式效率对比分析》文章比较了MySQL大数据量批量更新的多种方法,指出REPLACEINTO和ONDUPLICATEKEY效率最高但存在数据风险,MyB... 目录效率比较测试结构数据库初始化测试数据批量修改方案第一种 for第二种 case when第三种

解决1093 - You can‘t specify target table报错问题及原因分析

《解决1093-Youcan‘tspecifytargettable报错问题及原因分析》MySQL1093错误因UPDATE/DELETE语句的FROM子句直接引用目标表或嵌套子查询导致,... 目录报js错原因分析具体原因解决办法方法一:使用临时表方法二:使用JOIN方法三:使用EXISTS示例总结报错原

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口