竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商

本文主要是介绍竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随着高阶智驾在乘用车前装赛道的规模化部署,过去仅仅依靠L4级自动驾驶生存(零散项目)的数据服务公司,有了全新的可持续商业化落脚点。

无论是小模型,还是大模型,都没有逃脱一个定律:就是依赖高质量的数据训练;同时,从数据采集、清洗、标注和质检,则形成一个完整的数据服务闭环工具链。

比如,2006年发布的ImageNet,就是机器学习社区最流行的图像分类基准数据集,包含超过1400万张标注图像,也成为评估计算机视觉模型在视觉感知能力的试金石。

而随着CNN卷积神经网络在汽车智能驾驶领域的导入,带动数据服务领域的需求提升。CNN训练需要大量的标注数据集,足够的多样性和覆盖范围,以保证网络的泛化能力。

而随着近年来,BEV+Transformer代表的大模型架构在智能驾驶领域的落地,对数据量提出了更高的要求。

比如,毫末智行在业内发布的首个自动驾驶生成式大模型DriveGPT雪湖·海若,就是基于自动化标注能力,解决数百亿4D Clips的不菲标注成本。而这种能力的背后,需要从下到上的经验。

图片

这在行业内也有先例。比如,百度智能云「云智一体」战略和百度在自动驾驶领域的十年研发经验,从而可以实现提供全流程配套产品和服务,助力智能驾驶技术的快速落地。

这背后,百度智能云数据众包覆盖2D/3D超过10种不同类型的标注任务,累计在自动驾驶领域标注2D/3D数据1亿帧以上。同时,还有业内领先的智能辅助标注技术和自动质检算法。

公开信息显示,大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,但在数据规模、质量、来源等方面存在较大的差异。

图片

比如,在智能驾驶赛道,大模型通常意味着主要通过量产车进行“影子模式”的数据采集,而并非此前小规模训练来自的定向采集,涉及到海量高质量数据来源。同时,万亿量级的规模,也远超传统模型的10亿量级。

同时,由于大模型预训练阶段的原始数据规模更大,相比于初期阶段的纯人工标准,更加注重数据清洗的工程化能力(半自动、自动化甚至是AI处理),这对都整体系统提出了更高要求。

这也意味着,数据标注等服务的门槛进一步提升;目前,在汽车智能驾驶赛道,以标注业务为代表的数据服务提供商,主要有几种不同的角色。比如,互联网AI巨头、纯数据标注公司(部分语音标注延伸业务)、工程服务平台以及全链路数据服务平台等。

比如,以百度智能云数据众包、海天瑞声为代表的厂商,是行业内为数不多具备甲/乙级测绘资质的企业,意味着,可以参与全流程的合规智能驾驶数据采集、标注等业务能力。

其中,排名市场竞争力首位的百度智能云数据众包,背靠百度的甲级测绘资质,自建采集车队,在原始数据采集、数据处理/标注、数据交付全流程实现合规处理,保证数据安全。

依托百度强大的技术积累与数据众包多年的服务经验,百度智能云数据众包为车企提供覆盖数据采集、数据标注、数据管理、模型训练、仿真测试环节的自动驾驶系统研发全链条所需的数据服务及工具平台。

此外,百度智能云的全链路数据解决方案,既能为企业提供全套数据运营服务及工具,也可以通过独立解耦的服务模式,为企业多样化的数据需求提供技术支撑。

图片

百度智能云全链路数据解决方案

同时,和其他同行相比,借助百度大模型的技术能力,百度智能云推出了智搜引擎模块,具有高效的数据检索和样本管理优势,提供低成本、高效率、高质量、规模化、自动化的数据挖掘服务。

特别是针对特殊场景和长尾有效场景,智搜引擎均可以快速从海量数据库中筛选所需要案例并进行相应标注,以更高的效率和更低的成本进行数据资源获取及数据价值挖掘。

,时长00:10

智搜引擎的以图搜图关键操作步骤演示

截至2023年6月底,排名第二的海天瑞声已服务超过70家智能驾驶领域客户,覆盖传统车企、新势力车企、智能驾驶技术公司等。目前公司也在该领域进行持续的客户拓展,进一步加固客户储备。

目前,海天瑞声围绕智能驾驶领域的市场需求,推出了多款服务自动驾驶数据生产的工具,比如,专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

此外,作为人工智能数据领域的A股科创板上市公司,海天瑞声在持续研发投入及企业经营方面,相比于大部分中小型公司优势明显。

比如,该公司今年开始投入基础研发并进行大模型训练、调优及评测服务等的技术研究,将数据服务拓宽范围至预训练以及模型评测阶段。

排名第三的亮道智能,则是唯一一家深度布局智能驾驶相关工程化技术的公司,今年正式对外发布感知训练数据解决方案,包括全套欧洲数据采集解决方案、智能数据标注生产服务、一站式大数据管理平台等。

目前,该方案已获得多个主机厂智能车型量产项目订单。其中,自研智能数据处理工具链,基于自动化标注算法,可实现数据95%自动标注;半自动数据编辑平台,可快速检索定位错误,对自动化标注结果进行修正。

在标注特色方面,LDEditor工具可以标注激光雷达点云数据,以及点云与图像融合数据,同时针对连续帧数据标注的优化,极大提高标注效率和准确率,并满足主机厂的严格数据质量要求。

此外,一些新的企业,也在近几年陆续进场。

原因是智能驾驶尤其是高阶智驾正在成为整车数据采集、标注和闭环应用的主赛道。相比于传统的L2级辅助驾驶,NOA及后续L3级自动驾驶的落地,对数据服务提出了更多的需求。

比如,标贝数据,从传统的语音数据处理,逐步进入智能驾驶赛道。该公司自主研发的3D标注工具,支持23D融合标注,通过3D物体标注映射2D结果,同时可单独针对2D标注。

从Momenta离开创业的恺望数据,推出的“数据标注产线”则是实现了在持续提升数据生产规模化的同时,减少成本20%-50%。

同时,从去年开始,恺望数据还推出了人才培训计划,与高职院校进行合作,希望培养有基础标注知识的人才。这其中,还有很关键的原因是,传统的数据标注等服务主要服务于通用AI,对于汽车行业的理解和要求,普遍认知不高。

高工智能汽车研究院最新发布数据显示,2023年1-9月,中国市场(不含进出口)乘用车前装标配(软硬件)NOA交付新车37.73万辆,同比上年同期增长151.20%。

不过,在前装搭载率方面,也仅仅不到3%(2.55%)。这意味着,大量车企和Tier1对于数据服务的需求,还处于早期阶段,整体市场潜在空间依然巨大。

这篇关于竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/612730

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

C#代码实现解析WTGPS和BD数据

《C#代码实现解析WTGPS和BD数据》在现代的导航与定位应用中,准确解析GPS和北斗(BD)等卫星定位数据至关重要,本文将使用C#语言实现解析WTGPS和BD数据,需要的可以了解下... 目录一、代码结构概览1. 核心解析方法2. 位置信息解析3. 经纬度转换方法4. 日期和时间戳解析5. 辅助方法二、L

使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)

《使用Python和Matplotlib实现可视化字体轮廓(从路径数据到矢量图形)》字体设计和矢量图形处理是编程中一个有趣且实用的领域,通过Python的matplotlib库,我们可以轻松将字体轮廓... 目录背景知识字体轮廓的表示实现步骤1. 安装依赖库2. 准备数据3. 解析路径指令4. 绘制图形关键

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock