有哪些工具可以帮助 AI 机器人的开发?

2024-11-19 阅读 8
更新于 2024年11月21日
NVIDIA 发布了全新 AI 和仿真工具以及工作流。机器人开发者可以使用这些工具和工作流,大大加快 AI 机器人(包括人形机器人)的开发工作。此次发布的系列产品包括:NVIDIA Isaac Lab 机器人学习框架正式版;Project GR00T(一个为加速人形机器人发展的项目)的六个全新人形机器人学习工作流;以及用于视频数据管理和处理的全新世界模型开发工具,包括用于视频处理的 NVIDIA Cosmos tokenizer 和 NVIDIA NeMo Curator。
开源 Cosmos tokenizer 可将图像和视频分解为具有极高压缩率的高质量 token,为机器人开发者提供卓越的视觉标记化功能。Cosmos tokenizer 的运行速度最高可达到当前标记器的 12 倍,NeMo Curator 的视频处理整理速度则最高可达到未优化管线的 7 倍。
NVIDIA Isaac Lab 是一个建立在 NVIDIA Omniverse 平台上的开源机器人学习框架。NVIDIA Omniverse 是一个用于开发适用于工业数字化和物理 AI 仿真的 OpenUSD 应用的平台。开发者可以使用 Isaac Lab 来大规模训练机器人策略。这个开源的统一机器人学习框架适用于从人形机器人到四足机器人和协作机器人等各种具身,能够处理日益复杂的动作和交互。
Project GR00T 旨在通过开发加速库、基础模型和数据管线,加速全球人形机器人开发者生态的发展。
这六个全新 Project GR00T 工作流为人形机器人开发者提供了实现最具挑战性的人形机器人功能的蓝图:
GR00T-Gen 用于构建基于 OpenUSD 的生成式 AI 3D 环境GR00T-Mimic 用于生成机器人运动和轨迹GR00T-Dexterity 用于机器人灵巧操作GR00T-Control 用于全身控制GR00T-Mobility 用于机器人运动和导航GR00T-Perception 用于多模态感知NVIDIA Cosmos tokenizer 提供高效、优质的编码和解码能力,能够简化这些世界模型的开发。它们树立了最小失真和时间不稳定性的新标准,实现了高质量的视频和图像重建。
Cosmos tokenizer 提供了高质量压缩和最高达 12 倍的视觉重构速度,为在广泛的视觉域开发可扩展、强大且高效的生成应用创造了条件。
NeMo Curator 现在加入了一个视频处理管线,这使机器人开发者能够通过处理大规模文本、图像和视频数据,来提高其世界模型的准确性。NeMo Curator 通过自动管线编排来简化数据整理工作,显著缩短了处理时间。NeMo Curator 支持跨多节点、多 GPU 系统的线性扩展,可高效处理 100 PB 以上的数据,这简化了 AI 开发,降低了成本,加快了产品的上市时间。
首先,咱们得聊聊编程语言。Python绝对是AI开发者的心头好,简洁明了,而且有着丰富的库支持,比如TensorFlow和PyTorch,这两个工具简直就是AI界的“实名反对票数第一的答案”。TensorFlow由谷歌大脑团队开发,适合大规模的机器学习任务,而PyTorch则更加灵活,深受研究人员的喜爱。