世界模型WHALE来了！

2024年11月22日 | 浏览量：67182

世界模型WHALE来了！
图片来源于网络，如有侵权，请联系删除

　　人类能够在脑海中设想一个想象中的世界，以预测不同的动作可能导致不同的结果。受人类智能这方面的启发，世界模型被设计用于抽象化现实世界的动态，并提供这种“如果……会怎样”的预测。

　　因此，具身智能体可以与世界模型进行交互，而不是直接与现实世界环境交互，以生成模拟数据，这些数据可以用于各种下游任务，包括反事实预测、离线策略评估、离线强化学习。

　　世界模型在具身环境的决策中起着至关重要的作用，使得在现实世界中成本高昂的探索成为可能。为了促进有效的决策，世界模型必须具备强大的泛化能力，以支持分布外（OOD）区域的想象，并提供可靠的不确定性估计来评估模拟体验的可信度，这两者都对之前的可扩展方法提出了重大挑战。

　　近日，来自南京大学、南栖仙策等机构的研究者在论文中引入了WHALE（World models with beHavior-conditioning and retrAcing-rollout LEarning），这是一个用于学习可泛化世界模型的框架，由两种可以与任何神经网络架构普遍结合的关键技术组成。

　　在确定策略分布差异是泛化误差的主要来源的基础上，研究者引入了一种行为—条件（behavior-conditioning）技术来增强世界模型的泛化能力，该技术建立在策略条件模型学习的概念之上，旨在使模型能够主动适应不同的行为，以减小分布偏移引起的外推误差。此外，研究者还提出了一种简单而有效的技术，称为retracing-rollout，以便对模型想象进行有效的不确定性估计，作为一种即插即用的解决方案，可以有效地应用于各种实施任务中的末端执行器姿态控制，而无需对训练过程进行任何更改。

　　通过整合WHALE的这两种技术，研究者提出了WHALE-ST，这是一种可扩展的基于时空transformer的世界模型，旨在实现更有效的决策。研究者进一步提出了WHALE-X，这是一个在970K机器人演示上预训练的414M参数世界模型。最后，研究者进行了大量的实验，以证明WHALE-ST和WHALE-X在模拟和现实世界任务中的卓越可扩展性与泛化性，突出了它们在增强决策方面的效果。

　　为了评估WHALE-X在实际物理环境中的泛化能力，研究团队在ARX5机器人上进行了全面实验。与预训练数据不同，评估任务调整了摄像机角度和背景等，增加了对世界模型的挑战。他们收集了每个任务60条轨迹的数据集用于微调，任务包括开箱、推盘、投球和移动瓶子，还设计了多个模型从未接触过的任务来测试模型的视觉、运动和任务泛化能力。

　　结果显示，WHALE-X在真实世界中展现出明显的优势：与没有行为—条件的模型相比，WHALEX的一致性提高了63％，表明该机制显著提升了OOD泛化能力；在97万个样本上进行预训练的WHALE-X，比从零开始训练的模型具有更高的一致性，凸显了大规模互联网数据预训练的优势；增加模型参数能够提升世界模型的泛化能力，WHALE-X-base（203M）动态模型在三个未见任务中的一致性比率是77M版本的3倍。此外，视频生成质量与一致性的结果一致。通过行为—条件策略、大规模预训练数据集和扩展模型参数，三种策略结合，显著提高了模型的OOD泛化能力，尤其是在生成高质量视频方面。　（陈陈　佳琪）

【责任编辑:朱家齐】

阅读下一篇：

版权声明

本文仅代表作者观点，不代表xx立场。
本文系作者授权xxx发表，未经许可，不得转载。

世界模型WHALE来了！

版权声明

作者其它文章

人保客户节，贴心好服务，中国人保携手马鞍山市盛东汽车续保团购会

人保客户节，贴心好服务，中国人保携手马鞍山明升汽车购车嘉年华

5月8日电子、通信、国防军工等行业融资净买入额居前

热门文章

随机文章

标签列表

世界模型WHALE来了！

版权声明

相关阅读

作者其它文章

人保客户节，贴心好服务，中国人保携手马鞍山市盛东汽车续保团购会

人保客户节，贴心好服务，中国人保携手马鞍山明升汽车购车嘉年华

5月8日电子、通信、国防军工等行业融资净买入额居前

热门文章

随机文章

标签列表