COCONut：打造下一代通用分割数据集，重塑计算机视觉基准

本文主要是介绍COCONut：打造下一代通用分割数据集，重塑计算机视觉基准，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

近年来，计算机视觉技术由于像COCO这样的综合基准数据集的推动而取得了飞速发展。但是，自COCO面世近十年后，其作为现代AI模型基准的适用性正受到质疑。其标注可能包含早期计算机视觉研究中的偏见和细微差别。随着模型在COCO数据集上的表现逐渐趋于平稳，人们担心过度拟合数据集的特定特征，可能限制了其在现实世界中的应用性。

下载：

COCONut: Modernizing COCO Segmentation

为了使COCO分割现代化，研究人员在本文中提出了COCONut——一种全新的、大规模的通用分割数据集。与之前创建大型数据集时常常为了扩展而牺牲标签精度不同，COCONut提供了383K张由人工验证的掩码标记图像。想象一下手工标注数百万个图像中的物体，这将需要数年时间！COCONut通过一个创新的辅助人工标注流程解决了这一挑战，该流程利用神经网络来增强人工标注者的工作效率。

这一流程包括四个关键阶段：机器生成预测、人工检查和编辑、掩码生成/精细化以及专家质量验证。在每个阶段，不同的神经模型分别处理“物体”（可数对象）和“非物体”（无定形区域）类，以确保标注的高质量。

但这个辅助人工流程是如何实际运作的呢？在第一阶段，边界框检测器和掩码分割器分别为“物体”和“非物体”类生成初步提议。人工标注者随后检查这些提议，并根据需要编辑或新增提议。精细化后的框和点被送入不同的模块生成最终的分割掩码。最后，专家标注者验证这些掩码的随机样本，重新标记任何不符合严格质量标准的掩码。

为了扩大数据集规模的同时保持质量，研究人员构建了一个数据引擎。它使用标注数据反复训练神经网络，为标注流程生成更优的提议。这一正向反馈循环，加上来自其他数据集的额外图像，最终形成了包含358K张图像和475万个掩码的COCONut-L分割。

研究人员进行了全面分析，将COCONut的标注与纯人工标注进行了比较。他们的专家标注者在“物体”和“非物体”掩码上展现了高度一致性。与此同时，辅助人工流程显著加快了“物体”类的标注速度。COCONut分为三种规模——COCONut-S（118K张图像）、COCONut-B（242K张图像）和COCONut-L（358K张图像，带475万个掩码）。量化结果显示，随着训练集规模从COCONut-S扩展到COCONut-L，各种神经架构的表现都有所改善。

有趣的是，尽管较大的伪标签数据集带来的收益有限，但在完全由人工标注的COCONut-B上训练带来了最显著的性能提升。这强调了人工标注

数据对于训练强大的分割模型的重要性。

COCONut代表了COCO基准现代化的重大进步。凭借其精心人工验证的标注和严格策划的25K图像验证集（COCONut-val），它有望成为评估当代分割模型的更具挑战性的测试平台。COCONut的开源发布为开发更能力强大、更公正的计算机视觉系统铺平了道路，这些系统适用于现实世界的场景。

这篇关于COCONut：打造下一代通用分割数据集，重塑计算机视觉基准的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！