在本周一的 SIGGRAPH 大会上,英伟达推出了一系列面向机器人开发者的全新世界 AI 模型、库及其他基础设施,其中最为引人注目的是 Cosmos Reason。这是一款拥有 70 亿参数的“推理”视觉语言模型,专为物理 AI 应用和机器人设计。

英伟达指出,自OpenAI推出CLIP模型以来,视觉语言模型在计算机视觉领域取得了显著进展,特别是在物体识别和模式识别等任务方面。然而,传统模型经常难以处理复杂的多步骤任务,特别是在处理模棱两可或新颖的现实世界情况时。Cosmos Reason以其出色的记忆力和理解能力,使得机器人能够像人类一样进行推理,从而在现实世界中做出更合理的行动决策。
英伟达在发布会上强调,这些模型的主要用途是创建用于训练机器人和 AI 智能体的合成文本、图像和视频数据集。Cosmos Reason 依托其记忆和对物理原理的理解,赋予机器人和 AI 智能体“推理”能力,使其能够“作为规划模型,推断具身智能体接下来可能采取的步骤”。该公司表示,该模型可用于数据策划、机器人规划和视频分析。
除了作为机器人的“推理大脑”,Cosmos Reason还可以广泛应用于其他AI领域。例如,它可以自动处理大规模和多样化的训练数据集,对它们进行组织和注释。此外,它还可以从大型视频数据中提取重要信息并进行有效的分析。目前,该模型已经商业化,英伟达内部的机器人和自动驾驶团队正在将其用于数据组织和注释任务。
此外,英伟达还发布了新的神经重建库,其中包含一种渲染技术,开发者可借此利用传感器数据以 3D 形式模拟现实世界。这一渲染能力也被整合进了开源模拟器 CARLA,该平台在开发者中广受欢迎。同时,Omniverse 软件开发工具包也迎来了更新。
除了 Cosmos Reason,NVIDIA 还将 Cosmos Transfer-2 添加到 Cosmos 世界模型中,旨在加速 3D 仿真场景的合成数据生成。同时,英伟达更新了Omniverse软件开发套件,并推出了新的神经重建库,进一步扩大了开发者的工具选择范围。


发表回复