缓解“AI数据荒”!一家出行平台公司居然有具身智能亟需的“黄金数据矿”

2026-05-18 15:51 0

5月18日,出行服务平台公司如祺出行旗下数据业务板块(以下简称“如祺数据”),首次对外完整披露AI数据资产全景版图,正式亮出其布局通用AI、具身智能与世界模型赛道的核心数据底牌。据官方披露信息,如祺数据已搭建起覆盖标注数据、行为数据、合成数据、多模态训练数据集四大维度的完整数据资产体系,形成适配前沿AI模型训练的高价值数据资源矩阵。

近年如祺出行AI数据业务实现爆发式增长。数据显示,2025年,该公司以AI数据服务为核心的技术服务板块营收达1.60亿元,同比暴涨487.4%。截至2026年5月,如祺出行已在广州、上海、重庆、沈阳等多座核心城市落地超300辆智能驾驶数据采集车,日均可产出1600小时、130TB的高质量合规数据,为AI模型迭代提供稳定、规模化的数据供给。

descript

如祺出行表示,依托真实出行场景长期积累的数据,公司正支持自动驾驶及多行业AI模型训练,并为具身智能、世界模型等提供可延展的数据支撑。

当前AI产业进入空间智能阶段,能还原物理世界规则与场景交互的高质量数据成为稀缺资源。分析指出,类似如祺出行这样的出行平台积累的多模态数据包含驾驶员决策、道路交互、空间位置及时序变化等信息,可以成为世界模型与具身智能训练的重要数据源。

锁定真实出行场景,坐拥具身智能训练“黄金数据矿”

具身智能、世界模型训练正面临核心瓶颈:适配物理交互、真实场景推理的高质量训练数据极度匮乏,成为制约具身智能规模化落地、世界模型精准迭代的关键难题。

与传统数据服务商不同,如祺出行拥有真实场景数据优势。每年数亿级出行订单及车辆运行数据沉淀了高频、复杂交通场景下的多模态数据,完整记录“决策-响应-反馈”闭环。自2023年起,如祺出行开始投放搭载激光雷达、高清摄像头等传感器的智能驾驶数据采集车,在提供出行服务的同时合规采集包括驾驶行为、人车互动、交通交互等真实数据,从而大幅降低数据获取边际成本。

descript

以泊车场景为例,如祺同步采集3D障碍物坐标、CAN总线信号、毫米波雷达回波、激光点云及全景视频,构建起覆盖“车辆行为、运行状态、环境变化”的多模态联合数据集。有从事大模型训练的专业人士评价,该类数据具备完整的决策、推理、反馈闭环,能够有效帮助具身智能体、世界模型理解真实空间关系、动态交互逻辑与长尾复杂场景,数据价值远超传统静态数据与模拟合成数据,是空间智能模型训练的优质“黄金数据矿”。

descript

消息人士透露,如祺出行正探索将平台积累的数据用于车后服务机器人训练,覆盖洗车、换电、维修等场景。

从单一数据服务到全栈能力,完成“数据集+标准化服务”进化

不同于国内多数传统数据服务商将业务局限于基础数据标注的单一环节,如祺出行已从单纯的基础标注服务供应商,升级为“数据集+全栈技术能力”的综合AI数据服务商,具备数据采集、清洗、智能标注、合成数据生成、多模态处理等全链路能力。同时,公司具备全套AI数据服务标准化封装能力,为客户提供开箱即用的数据产品,大幅降低真实场景数据的使用门槛与落地成本。

这套完整能力能同时满足智能驾驶等行业的基础数据需求,以及具身智能、通用大模型等前沿AI赛道训练要求,让如祺出行实现场景数据价值跨行业落地。

公司在全国布局3大交付基地,拥有超1500人专业团队、超1000家BPO合作伙伴及百万级众包资源,月均标注交付能力达千万级。自研OCC自动化标注算法可替代90%人工标注,交付准确率超98%。此外,如祺自研合成数据覆盖多时段、多天气等场景,其多模态数据集涵盖图像、文本、音频、视频全品类,可直接适配各类大模型垂类微调与迭代优化。

descript

目前,如祺AI数据服务已落地智能驾驶、具身智能、大模型、消费电子、医疗等领域,客户包括腾讯、小马智行、理想汽车、火山引擎、百度智能云、广汽集团等,其商业模式和落地路径,已开始得到市场充分验证。