3 月 30 日,全球多模态生成式人工智能领域代表企业智象未来 (HiDream.ai) 与专注具身智能与人形机器人数据基础设施的诺亦腾机器人(Noitom Robotics)正式签署战略合作协议。双方以毫米级可控视频生成技术与高精度动作捕捉能力为核心抓手,围绕高质量、规模化具身智能视频数据生成展开深度协同,共同探索具身智能产业数据供给的创新路径,为行业技术突破与规模化落地提供关键支撑。

当前,具身智能正从实验室研究走向产业落地,成为人工智能、人形机器人、智能制造等领域的核心发展方向。与大语言模型依托海量文本数据快速迭代不同,具身智能高度依赖视觉、运动、触觉等多模态信息,对训练数据的真实性、精准度、物理一致性提出极高要求。传统数据采集方式依赖实景拍摄、人工标注与设备采集,存在成本高昂、周期漫长、场景单一、规模有限等痛点,难以支撑模型在复杂真实环境中的泛化与迭代。随着产业进入快速爆发期,行业对训练数据的需求已从小体量演示样本,转向大体量、高质量、可工程化、可规模化交付的新阶段,数据供给能力直接决定具身智能模型的性能上限与落地速度。
在此行业背景下,智象未来与诺亦腾机器人的战略合作,以“真实数据 + 生成式视频数据”的融合模式,为行业突破数据瓶颈提供全新解法。本次合作的核心价值,在于将顶尖 AI 生成能力与专业级数据基础设施深度打通,形成互补性极强的技术协同:智象未来发挥多模态大模型优势,实现毫米级高可控视频生成,能够对动作捕捉设备采集的原始传感数据进行百倍以上精细化放大;诺亦腾机器人则依托成熟的高精度人体动作捕捉系统与多模态数据采集平台,提供真实、稳定、可追溯的物理世界数据底座。双方通过技术耦合,将精准动作指令与丰富视觉场景深度融合,在确保视频每一帧与底层操作数据精准配对的同时,大幅提升场景多样性、光影复杂度与人体形态覆盖度,从根源上解决通用视频生成易出现“幻觉”、物理逻辑不一致等问题。

按照合作规划,智象未来与诺亦腾机器人将在年内合力产出数万小时以上的高质量具身智能视频训练数据,形成可稳定、规模化供应行业的数据能力,有效缓解当前具身智能产业训练数据短缺的核心难题。签约仪式现场,诺亦腾机器人创始人兼首席执行官戴若犁、智象未来创始人兼首席执行官梅涛等共同出席,见证双方开启具身智能数据新范式。
作为深耕具身智能数据领域的专业企业,诺亦腾机器人始终以数据为核心交付界面,专注构建产业级数据底座与技术平台,推动具身智能数据从“单点采集”走向工程化、体系化、标准化。诺亦腾机器人联合创始人、首席科学家韩磊博士表示:“具身智能的发展,本质上是一个以数据为核心驱动的系统工程。单一来源的数据难以支撑模型在复杂物理世界中的泛化能力。我们希望通过与智象未来的合作,将真实世界中高精度采集的人类动作数据,与可规模化生成的多样化视频数据相结合,构建兼具真实性与多样性的训练数据体系。这将有助于突破当前数据规模与质量之间的瓶颈,加速具身智能模型从‘可用’走向‘好用’。”

智象未来作为全球领先的多模态生成式 AI 企业,持续深耕底层技术创新,在生成精度、语义理解与可控性上不断突破。针对具身智能场景的严苛要求,智象未来放弃通用视频生成“追求视觉效果”的思路,以训练可用、物理精准为目标,基于自研多模态大模型对动捕数据进行高可控生成式优化,把传统动捕数据转化为适配模型训练的高质量素材。

智象未来联合创始人兼 CTO 姚霆博士表示:“普通的通用视频生成模型通常是为了好看,容易产生幻觉或物理不一致。为了让生成的视频数据能够达到具身智能产业需求的物理一致性,我们基于智象自研的多模态大模型,对传感动捕设备采集的数据进行了高可控性的生成式优化,使之更加符合具身智能企业进行高精度训练的要求。这种‘数据炼金术’打破了传统动捕数据的局限,为具身智能的进化提供了取之不尽的高质量‘燃料’。”
面向未来,双方合作将持续向纵深推进,围绕高质量底层数据构建、VLA 模型规模化演进、视频建模与动作预测协同驱动的世界模型展开全方位协同。智象未来将以多模态大模型的零样本生成能力,助力高精度多模态以人为中心数据的规模化扩展与视觉精细度增强。诺亦腾机器人则以真实数据基础设施提供精准物理反馈,共同搭建从虚拟生成到物理验证的完整数据闭环,以技术创新持续推动具身智能产业快速发展,为人工智能与机器人产业迈向新时代注入强劲动能。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。