文章主题:ChatGPT, 物理机器人, 波士顿动力, AI模型
将ChatGPT与物理机器人结合,波士顿动力开发了一只怪物!
在10月27日,全球知名的机器人制造商波士顿动力(Boston Dynamics)发布了一项最新的研究成果,该成果通过整合ChatGPT、Spot等人工智能模型,成功研发出一款具备语言交流能力的智能导览机器人狗。
据报道,这款机器人狗具备了与人类进行对话的能力,它不仅可以识别并回应文字和语音的指令,还提供了一种视觉问答模式。这种模式使得机器人狗能够通过分析摄像头捕捉到的画面来回答问题,并能自动生成相应的图像说明。
波士顿动力表示,ChatGPT等大语言模型展现出了强大的控制和输出能力,这让他们大受启发,可以用于控制物理机器人的行为和决策功能。例如,输入一些特定景点数据、图片等,可让机器人提供逻辑清晰、条理分明的导游功能。
这进一步提升了物理机器人的拟人化特征,例如,为其讲述一则幽默的冷笑话,或执行一些令人捧腹的滑稽动作。若采取传统方式实现,将会极具挑战性。
导游机器狗展示导游机器狗技术原理
波士顿动力运用自家研发的四足机器人Spot,构建了一个物理机器人框架,从而实现了诸如行走、监控、导航以及扫描等一系列核心功能。
为使机器人狗能够与人类进行对话交流,研究人员为其搭载了先进的Respeaker V2扬声器。这款扬声器内置了LED环形阵列麦克风,并通过USB接口与Spot的EAP 2设备相连接,从而实现数据的快速传输。
1)Spot EAP 2)扬声器3) 蓝牙音箱4)点臂和夹具相机
在本文中,我们探讨了一种将计算机作为机器狗控制中心的方法,并借助Spot SDK与之进行数据交互。为了赋予机器狗拟人化的行为,如点头、伸脖子等,我们采用了Spot的点臂和夹具相机技术。
用ChatGPT让机器狗说话
在物理硬件环境搭建完毕之后,为了赋予机器狗对话的能力,研发团队采用了GPT-3.5和GPT-4与Spot SDK的结合方式,同时进行了基础的指令微调操作,从而使机器狗能够初步地展现出导游判断和对话的功能特性。
为了使Spot能够与人类和环境进行互动,本文作者将其集成了一系列先进技术,包括VQA(视觉问答)和语音转文本软件。此外,通过将机器人的抓手摄像头和前置机身摄像头输入到BLIP-2系统中,实现了实时图像识别与处理。借助视觉问答模式(如“这张图片有何独特之处?”等简洁问题),或者采用图像字幕模式,使得BLIP-2得以在多种场景中灵活运行,进一步提升了Spot与外部世界的沟通效果。
该过程大约每秒运行一次,结果将直接输入到提示中。
为使机器狗具备“聆听”的能力,开发团队将麦
为了让机器狗能与人类实现对话,需要将人类的语音指令转换成文本用于提示ChatGPT,因此还需要一个转换工具。开发人员在尝试了多种工具后,决定使用了云服务ElevenLabs。
实验中的惊奇现象
在多个测试对话过程中,研发人员发现了一个令人惊奇的现象,机器狗好像具备了简单的自我决策能力。
例如,向机器狗询问Marc Raibert(波士顿动力执行董事)是谁时?它回答:“我不知道他是谁,让我们去服务台问一问吧。”
到了服务台,机器狗继续向服务人员询问Marc Raibert是谁?
当研发人员提问:你的父母是谁?机器狗走向了Spot V1和Big Dog的展示区,并认为这些机器人是它的父辈们。实际上,它们之间确实有关联。
机器狗还展现出了有趣的一面,可以主动向路人询问,周围是否有神秘的生物。
波士顿动力表示,未来还会持续优化该产品的功能。ChatGPT与实体机器人的相结合,为大语言模型实现物理化落地打开了大门,可以在导游、娱乐、物流、陪伴等领域得到广泛应用。
关于波士顿动力
波士顿动力(Boston Dynamics)成立于1992年,总部位于马萨诸塞州波士顿。起初是麻省理工学院(MIT)的一个分支机构,后来发展成为一家独立的公司。
波士顿动力以开发高度先进、灵活且具有实用性的机器人而闻名,其产品在工业、研究和消费领域都有应用,主要代表机器人包括:BigDog、Atlas、Spot、Handle等。
本文素材来源波士顿动力官网,如有侵权请联系删除
END返回搜狐,查看更多
责任编辑:
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!