HaLo-NeRF:利用视觉和语言模型对场景的精准定位和细粒度语义理解

本文主要是介绍HaLo-NeRF:利用视觉和语言模型对场景的精准定位和细粒度语义理解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

包含大量摄影师拍摄的照片的互联网图像集有望实现对大型旅游地标的数字探索。然而,先前的工作主要集中在几何重建和可视化上,忽略了语言在为导航和细粒度理解提供语义界面方面的关键作用。

项目:HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

更多消息:
AI人工智能行业动态,aigc应用领域资讯

在受限的 3D 领域中,最近的方法利用视觉和语言模型作为 2D 视觉语义的强大先验。虽然这些模型表现出对广泛视觉语义的出色理解,但由于缺乏建筑领域的专业知识,它们难以处理描绘此类旅游地标的不受约束的照片集。在这项工作中,他们提出了一个定位系统,通过利用 SOTA 视觉和语言模型的力量以及理解地标场景语义的适应性,将描绘大规模地标的场景的神经表示与描述场景内语义区域的文本连接起来。为了用细粒度的知识支持此类模型,他们利用包含相似地标图像以及弱相关文本信息的大规模互联网数据。

他们的方法建立在这样的前提之上:物理上基于空间的图像可以为本地化新概念提供强大的监督信号,其语义可以通过大型语言模型从互联网文本元数据中解锁。他们使用场景视图之间的对应关系来引导对这些语义的空间理解,为最终提升为体积场景表示的 3D 兼容分割提供指导。 他们的结果表明,HaLo-NeRF 可以准确定位与建筑地标相关的各种语义概念,超越了其他 3D 模型以及强大的 2D 分割基线的结果。

实现方法

他们的目标是对互联网照片集捕获的地标场景执行文本驱动的神经 3D 定位。换句话说,给定这组图像和描述场景中语义概念的文本提示,他们想知道HaLo-NeRF在 3D 空间中的位置。这些图像是在野外拍摄的,这意味着它们可能是在不同季节、一天中的时间、视角和距地标的距离拍摄的,并且可能包括短暂的遮挡。

HaLo-NeRF为了在 3D 空间中定位独特的建筑特征地标,他们利用强大的现代基础模型进行视觉和文本理解。尽管在一般多模态理解方面取得了进展,但现代 VLM 仍难以在建筑地标上定位细粒度的语义概念,正如他们在结果中广泛展示的那样。建筑领域使用专门的词汇,术语在一般用法中很少见。

为了解决这些挑战,他们设计了一个三阶段系统:(a)他们使用大型语言模型(LLM)从嘈杂的互联网图像元数据中提取语义伪标签。 (b) 他们使用这些伪标签和场景视图之间的对应关系来学习图像级和像素级语义。特别是,他们使用多视图监督微调图像分割模型(CLIPSegFT),其中放大视图及其相关的伪标签(例如与术语“鼓室”相关的左侧图像)提供监督信号用于缩小视图。 (c) 然后,他们提升这种语义理解,以学习新的、看不见的地标(例如右侧描绘的圣保罗大教堂)的体积概率,从而允许使用受控的视点和照明设置渲染分段场景的视图。

此外,他们还显示了下面的可视化效果,将 HaLo-NeRF(左)与 Baseline 模型(右)进行比较,后者使用 CLIPSeg 模型而不进行微调。两个视频都显示了相同的 RGB 渲染时间序列,仅在所描述的概率上有所不同(取自他们的模型或基线)。请注意,一旦放大,他们就会关闭两个模型的概率,以便更好地查看目标语义区域。每个视频上方都写有目标文本提示,右侧是地标名称。如下图所示,他们的模型产生了明显更清晰的概率,可以更好地定位语义区域,特别是对于建筑地标领域之外不太常见的独特概念。他们还以多种外观可视化放大区域(对于他们的模型,保持基线模型的外观固定)。主论文中说明了来自 HolyScenes 基准的其他提示和地标的结果。

这项技术有几个重要的用途:

  1. 导航和定位:通过这项技术,用户可以更精确地找到地标场景中的特定区域或对象。这对于旅游导航、城市规划或者虚拟现实(VR)体验中的定位都非常重要。
  2. 增强现实(AR)和虚拟现实(VR)应用:通过提供详细的3D定位和语义信息,这项技术可以为AR和VR应用提供更加丰富和真实的场景渲染。用户可以在虚拟环境中更自然地与地标进行交互,获得更加沉浸式的体验。
  3. 文化遗产保护和展示:对于历史建筑和文化遗产,这项技术可以用于创建数字模型,进行保护和展示。通过精确的定位和语义理解,可以还原建筑的原始风貌,为学者和游客提供更加深入的了解和体验。
  4. 智能图像检索:用户可以通过输入文本描述来检索与特定地标相关的图像,或者找到图像中特定语义区域的详细信息。
  5. 自动化地标识别:这项技术可以应用于自动驾驶车辆、无人机或其他机器人设备,帮助它们更好地识别和理解地标场景,从而实现更精准的导航和任务执行。

这篇关于HaLo-NeRF:利用视觉和语言模型对场景的精准定位和细粒度语义理解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/948712

相关文章

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

Go语言中json操作的实现

《Go语言中json操作的实现》本文主要介绍了Go语言中的json操作的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录 一、jsOChina编程N 与 Go 类型对应关系️ 二、基本操作:编码与解码 三、结构体标签(Struc

vue监听属性watch的用法及使用场景详解

《vue监听属性watch的用法及使用场景详解》watch是vue中常用的监听器,它主要用于侦听数据的变化,在数据发生变化的时候执行一些操作,:本文主要介绍vue监听属性watch的用法及使用场景... 目录1. 监听属性 watch2. 常规用法3. 监听对象和route变化4. 使用场景附Watch 的

Java 缓存框架 Caffeine 应用场景解析

《Java缓存框架Caffeine应用场景解析》文章介绍Caffeine作为高性能Java本地缓存框架,基于W-TinyLFU算法,支持异步加载、灵活过期策略、内存安全机制及统计监控,重点解析其... 目录一、Caffeine 简介1. 框架概述1.1 Caffeine的核心优势二、Caffeine 基础2

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

python语言中的常用容器(集合)示例详解

《python语言中的常用容器(集合)示例详解》Python集合是一种无序且不重复的数据容器,它可以存储任意类型的对象,包括数字、字符串、元组等,下面:本文主要介绍python语言中常用容器(集合... 目录1.核心内置容器1. 列表2. 元组3. 集合4. 冻结集合5. 字典2.collections模块

基于Go语言开发一个 IP 归属地查询接口工具

《基于Go语言开发一个IP归属地查询接口工具》在日常开发中,IP地址归属地查询是一个常见需求,本文将带大家使用Go语言快速开发一个IP归属地查询接口服务,有需要的小伙伴可以了解下... 目录功能目标技术栈项目结构核心代码(main.go)使用方法扩展功能总结在日常开发中,IP 地址归属地查询是一个常见需求:

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除