通用AI助手SIMA：能听玩家指令，陪打游戏的新境界

文章主题：谷歌, AI, 游戏, 通用

超级“辅助”来了！谷歌推出通用AI：能听玩家指令，陪打游戏

谷歌DeepMind带来了一款能够陪伴玩家打游戏、听从玩家指挥的AI。

在3月13日的某个时刻，谷歌DeepMind公司推出了一项最新的研究成果——SIMA（Scalable Instructable Multiworld Agent，即可扩展、可指导、多世界的智能体）AI智能体。这项创新性的技术被被誉为全球首款具备在广泛3D虚拟环境和视频游戏中遵循自然语言指令能力的“通用AI智能体”。

AI技术在游戏中已经不再是什么新奇的概念，然而，这款名为SIMA的游戏却与众不同。它并非简单地通过“后台操作”的方式，让玩家在游戏中轻松取得胜利，而是以“伙伴”的身份，聆听玩家利用自然语言所给出的指令，协助他们在各种3D游戏中应对复杂的任务。这种新颖的设计，无疑为玩家带来了更加沉浸式的游戏体验。

为了打造一款能够适应多款游戏环境的通用型游戏AI,DeepMind与多家游戏开发商展开合作。这些游戏包括《无人深空》、《模拟山羊3》和《幸福工厂》等,它们在玩法和操作上都存在显著差异。通过对SIMA在这些游戏中的训练和测试,DeepMind旨在让SIMA具备跨游戏的能力。为了实现这一目标,DeepMind向SIMA展示了玩家在不同游戏中的组合游玩和自由游玩录像,并通过收集大量数据来帮助SIMA总结出常见的玩家操作模式以及语言和行为之间的关联。

SIMA的训练过程。来源：DeepMind官网

DeepMind的研究过程中涉及了四个不同的环境,其中一个是名为“The Construction Lab”的新环境,这是一个由Unity创建的虚拟空间。在这个环境下,智能体必须利用积木来构建雕塑,以此评估它们对物体操作的能力以及对物理世界的理解程度。

在整体架构方面，SIMA将预训练的视觉模型与自监督学习的Transformer相融合，从而能够接收用户给出的语言指令，并利用环境中的图像观察结果进行相应的操作。最终，这些信息被转化为键盘和鼠标动作，进而操控游戏中的角色。

这表明，SIMA能够在不访问游戏源代码和定制API的情况下，仅通过接收屏幕上的图像和用户输入的自然语言指令，就能与各种潜在的虚拟环境进行互动。换言之，SIMA具备强大的跨平台交互能力，无需深入游戏内部技术，即可实现高效操作。

DeepMind表示：“SIMA是一个AI智能体，能够感知和理解各种环境，并采取行动来实现指定的目标。它包括一个设计用于精确图像语言映射的模型，以及一个用于预测屏幕上接下来会发生什么的视频模型。我们利用SIMA所涉及的特定3D设置的数据来微调这些模型。”

据介绍，当前版本的SIMA已经在600种基本技能上获得评估，涵盖导航（例如“向左转”）、物体交互（“爬梯子”）和菜单使用（“打开地图”）等。经过DeepMind的训练，SIMA已经能执行可以在约10秒内完成的简单任务。最终，SIMA将学会如何游玩任何视频游戏，甚至是没有线性结束路径的游戏和开放世界游戏。

SIMA掌握的部分游戏技能。来源：DeepMind官网

在评估测试中，研究人员让SIMA在九个3D游戏集上接受训练，其表现显著优于仅在单个游戏上专门训练的智能体，并且在未训练过的游戏中的表现和专门使用该游戏数据集训练过的智能体表现一样好，证明了SIMA在全新环境中具备泛化能力。

毫无疑问，SIMA显示出，AI在游戏中的表现依然很有潜力。或许在不久的将来，由AI驱动的NPC（非游玩角色）也能真正做到像人类一样陪伴玩家进行游戏，而不再只会按照既定的代码运行。

就在上个月，DeepMind团队还展示了基础世界模型Genie，可根据合成图像、照片、草图生成动作可控的2D世界。其模型参数只有110亿，根据人类玩2D平台类游戏的20多万小时视频进行无监督训练。不过Genie生成的“游戏”画质很糊，离实时可玩还很远。返回搜狐，查看更多

责任编辑：

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply