竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商

本文主要是介绍竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随着高阶智驾在乘用车前装赛道的规模化部署,过去仅仅依靠L4级自动驾驶生存(零散项目)的数据服务公司,有了全新的可持续商业化落脚点。

无论是小模型,还是大模型,都没有逃脱一个定律:就是依赖高质量的数据训练;同时,从数据采集、清洗、标注和质检,则形成一个完整的数据服务闭环工具链。

比如,2006年发布的ImageNet,就是机器学习社区最流行的图像分类基准数据集,包含超过1400万张标注图像,也成为评估计算机视觉模型在视觉感知能力的试金石。

而随着CNN卷积神经网络在汽车智能驾驶领域的导入,带动数据服务领域的需求提升。CNN训练需要大量的标注数据集,足够的多样性和覆盖范围,以保证网络的泛化能力。

而随着近年来,BEV+Transformer代表的大模型架构在智能驾驶领域的落地,对数据量提出了更高的要求。

比如,毫末智行在业内发布的首个自动驾驶生成式大模型DriveGPT雪湖·海若,就是基于自动化标注能力,解决数百亿4D Clips的不菲标注成本。而这种能力的背后,需要从下到上的经验。

图片

这在行业内也有先例。比如,百度智能云「云智一体」战略和百度在自动驾驶领域的十年研发经验,从而可以实现提供全流程配套产品和服务,助力智能驾驶技术的快速落地。

这背后,百度智能云数据众包覆盖2D/3D超过10种不同类型的标注任务,累计在自动驾驶领域标注2D/3D数据1亿帧以上。同时,还有业内领先的智能辅助标注技术和自动质检算法。

公开信息显示,大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,但在数据规模、质量、来源等方面存在较大的差异。

图片

比如,在智能驾驶赛道,大模型通常意味着主要通过量产车进行“影子模式”的数据采集,而并非此前小规模训练来自的定向采集,涉及到海量高质量数据来源。同时,万亿量级的规模,也远超传统模型的10亿量级。

同时,由于大模型预训练阶段的原始数据规模更大,相比于初期阶段的纯人工标准,更加注重数据清洗的工程化能力(半自动、自动化甚至是AI处理),这对都整体系统提出了更高要求。

这也意味着,数据标注等服务的门槛进一步提升;目前,在汽车智能驾驶赛道,以标注业务为代表的数据服务提供商,主要有几种不同的角色。比如,互联网AI巨头、纯数据标注公司(部分语音标注延伸业务)、工程服务平台以及全链路数据服务平台等。

比如,以百度智能云数据众包、海天瑞声为代表的厂商,是行业内为数不多具备甲/乙级测绘资质的企业,意味着,可以参与全流程的合规智能驾驶数据采集、标注等业务能力。

其中,排名市场竞争力首位的百度智能云数据众包,背靠百度的甲级测绘资质,自建采集车队,在原始数据采集、数据处理/标注、数据交付全流程实现合规处理,保证数据安全。

依托百度强大的技术积累与数据众包多年的服务经验,百度智能云数据众包为车企提供覆盖数据采集、数据标注、数据管理、模型训练、仿真测试环节的自动驾驶系统研发全链条所需的数据服务及工具平台。

此外,百度智能云的全链路数据解决方案,既能为企业提供全套数据运营服务及工具,也可以通过独立解耦的服务模式,为企业多样化的数据需求提供技术支撑。

图片

百度智能云全链路数据解决方案

同时,和其他同行相比,借助百度大模型的技术能力,百度智能云推出了智搜引擎模块,具有高效的数据检索和样本管理优势,提供低成本、高效率、高质量、规模化、自动化的数据挖掘服务。

特别是针对特殊场景和长尾有效场景,智搜引擎均可以快速从海量数据库中筛选所需要案例并进行相应标注,以更高的效率和更低的成本进行数据资源获取及数据价值挖掘。

,时长00:10

智搜引擎的以图搜图关键操作步骤演示

截至2023年6月底,排名第二的海天瑞声已服务超过70家智能驾驶领域客户,覆盖传统车企、新势力车企、智能驾驶技术公司等。目前公司也在该领域进行持续的客户拓展,进一步加固客户储备。

目前,海天瑞声围绕智能驾驶领域的市场需求,推出了多款服务自动驾驶数据生产的工具,比如,专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

此外,作为人工智能数据领域的A股科创板上市公司,海天瑞声在持续研发投入及企业经营方面,相比于大部分中小型公司优势明显。

比如,该公司今年开始投入基础研发并进行大模型训练、调优及评测服务等的技术研究,将数据服务拓宽范围至预训练以及模型评测阶段。

排名第三的亮道智能,则是唯一一家深度布局智能驾驶相关工程化技术的公司,今年正式对外发布感知训练数据解决方案,包括全套欧洲数据采集解决方案、智能数据标注生产服务、一站式大数据管理平台等。

目前,该方案已获得多个主机厂智能车型量产项目订单。其中,自研智能数据处理工具链,基于自动化标注算法,可实现数据95%自动标注;半自动数据编辑平台,可快速检索定位错误,对自动化标注结果进行修正。

在标注特色方面,LDEditor工具可以标注激光雷达点云数据,以及点云与图像融合数据,同时针对连续帧数据标注的优化,极大提高标注效率和准确率,并满足主机厂的严格数据质量要求。

此外,一些新的企业,也在近几年陆续进场。

原因是智能驾驶尤其是高阶智驾正在成为整车数据采集、标注和闭环应用的主赛道。相比于传统的L2级辅助驾驶,NOA及后续L3级自动驾驶的落地,对数据服务提出了更多的需求。

比如,标贝数据,从传统的语音数据处理,逐步进入智能驾驶赛道。该公司自主研发的3D标注工具,支持23D融合标注,通过3D物体标注映射2D结果,同时可单独针对2D标注。

从Momenta离开创业的恺望数据,推出的“数据标注产线”则是实现了在持续提升数据生产规模化的同时,减少成本20%-50%。

同时,从去年开始,恺望数据还推出了人才培训计划,与高职院校进行合作,希望培养有基础标注知识的人才。这其中,还有很关键的原因是,传统的数据标注等服务主要服务于通用AI,对于汽车行业的理解和要求,普遍认知不高。

高工智能汽车研究院最新发布数据显示,2023年1-9月,中国市场(不含进出口)乘用车前装标配(软硬件)NOA交付新车37.73万辆,同比上年同期增长151.20%。

不过,在前装搭载率方面,也仅仅不到3%(2.55%)。这意味着,大量车企和Tier1对于数据服务的需求,还处于早期阶段,整体市场潜在空间依然巨大。

这篇关于竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/612730

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

python中的高阶函数示例详解

《python中的高阶函数示例详解》在Python中,高阶函数是指接受函数作为参数或返回函数作为结果的函数,下面:本文主要介绍python中高阶函数的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录1.定义2.map函数3.filter函数4.reduce函数5.sorted函数6.自定义高阶函数

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性