英伟达AI总监Jim Fan近期分享了关于“物理AI” (Physical AI) 的发展路径及技术攻坚方向,核心在于解决当前实体机器人技术远滞后于语言模型的关键瓶颈。
核心论点:物理AI的发展依赖于大规模算力驱动的模拟学习,以生成可迁移的机器人技能,并最终构建“物理API” (Physical API) 实现标准化机器人能力调用。
1. “物理图灵测试”:物理AI的基准
Jim Fan提出“物理图灵测试”概念,用以衡量AI在物理世界的综合能力。标准:AI自主完成复杂的多步骤物理任务(例如,清理混乱房间并准备晚餐),其结果与人类操作无法区分。
2. 核心瓶颈:机器人训练数据稀缺性
与语言模型可利用海量互联网文本不同,机器人物理技能数据(如连续的关节控制信号)需通过“远程示教”(Teleoperation) 等方式采集。此过程依赖人类操作员(“人类燃料”),效率低、成本高、难以规模化。
3. 英伟达解决方案:多层次模拟训练
模拟1.0 - “数字孪生”(Digital Twins):
机制:在单一GPU上并行运行高达10,000个环境的物理模拟,速度远超真实时间。
关键技术:“领域随机化”(Domain Randomization),通过改变模拟环境参数(如重力、摩擦力)提升模型泛化能力。
成果:少量模拟时间(如2小时)可达成等效数年(如10年)的真实世界训练效果(如人形机器人行走),控制网络参数量级可控制在百万级(如150万)。
生成式模拟 - Robocasta框架 (“数字表亲” - Digital Cousins):
机制:利用生成式AI技术(3D生成模型、扩散模型生成材质、LLM生成场景XML)自动化创建多样化的模拟资产与环境。
优势:提高模拟内容的多样性与复杂度,降低人工建模成本。
模拟2.0 - “数字游牧者”(Digital Nomads):
机制:应用视频生成模型(经真实机器人数据微调)直接根据语言指令生成机器人执行任务的未来动作序列。
优势:高多样性,能模拟流体、软体等复杂交互,甚至硬件不支持的动作(基于模型对大量视频数据的学习)。
4. “体现规模定律”(Embodied Scaling Law):
经典模拟(1.x)的扩展性受限于人工创建内容的多样性。神经世界模型(模拟2.0)的多样性与能力则随计算资源投入呈指数级增长。二者结合是驱动下一代机器人系统的关键。
5. Groot N1模型:物理AI的开源实践
Nvidia将模拟数据输入视觉-语言-行动 (Vision-Language-Action, VLA) 模型,生成电机控制信号。Groot N1即为此类模型,已开源,旨在推动物理AI的民主化。
6. 未来展望:“物理API”
物理AI成熟后,将催生“物理API”。开发者可像调用数字服务API一样,调用物理能力来控制机器人执行现实世界任务,实现原子层面的按需操作,构建新的技能经济与应用生态。