文章主题:ChatGPT, 物理机器人, 波士顿动力, AI模型
将ChatGPT与物理机器人结合,波士顿动力开发了一只怪物!
在10月27日,全球知名的机器人制造商波士顿动力(Boston Dynamics)发布了一项最新的研究成果,该成果通过整合ChatGPT、Spot等人工智能模型,成功研发出一款具备语言交流能力的智能导览机器人狗。
据报道,这款机器人狗具备了与人类进行对话的能力,它不仅可以识别并回应文字和语音的指令,还能进行视觉交互。更为重要的是,它能够利用自身的智能分析能力,对摄像头的捕捉画面进行解读,并据此生成相应的图像描述。
波士顿动力表示,ChatGPT等大语言模型展现出了强大的控制和输出能力,这让他们大受启发,可以用于控制物理机器人的行为和决策功能。例如,输入一些特定景点数据、图片等,可让机器人提供逻辑清晰、条理分明的导游功能。
这进一步提升了物理机器人的拟人化特征,例如,为其讲述一则幽默的冷笑话,或者执行一些令人捧腹的滑稽动作。若采取传统的手段,这将是一项极具挑战性的任务。
导游机器狗展示导游机器狗技术原理
波士顿动力运用自家研发的四足机器人Spot,构建了一个物理机器人框架,从而实现了诸如行走、监控、导航以及扫描等一系列基础功能。
为使机器人狗能够与人类进行对话交流,研究人员为其搭载了先进的Respeaker V2扬声器。这款设备配备有LED环形阵列麦克风,可以通过USB接口与Spot的EAP 2进行连接,从而实现数据的快速传输。
1)Spot EAP 2)扬声器3) 蓝牙音箱4)点臂和夹具相机
在本文中,我们探讨了一种将计算机作为机器狗控制中心的方法,并借助Spot SDK与之进行数据交互。为了赋予机器狗人类般的动作表现,如点头、伸脖子等,我们采用了Spot的点臂和夹具相机技术。
用ChatGPT让机器狗说话
物理硬件环境搭建完成后,为了使机器狗具备对话功能,研发人员使用了GPT-3.5和GPT-4与Spot SDK相结合,并进行了简单的指令微调,让机器狗具备了初级导游判断和对话功能。
接下来,为了让Spot与人类和环境进行交互,集成了VQA和语音转文本软件。同时将机器人的抓手摄像头和前置机身摄像头输入BLIP-2,并以视觉问答模式(例如“这张图片有什么有趣的地方?”等简单问题)或图像字幕模式运行它。
该过程大约每秒运行一次,结果将直接输入到提示中。
为了让机器狗可以实现“听”的功能,研发人员将麦克风数据分块输入到OpenAI的语音模型Whisper中转换为英文文本。
为了让机器狗能与人类实现对话,需要将人类的语音指令转换成文本用于提示ChatGPT,因此还需要一个转换工具。开发人员在尝试了多种工具后,决定使用了云服务ElevenLabs。
实验中的惊奇现象
在多个测试对话过程中,研发人员发现了一个令人惊奇的现象,机器狗好像具备了简单的自我决策能力。
例如,向机器狗询问Marc Raibert(波士顿动力执行董事)是谁时?它回答:“我不知道他是谁,让我们去服务台问一问吧。”
到了服务台,机器狗继续向服务人员询问Marc Raibert是谁?
当研发人员提问:你的父母是谁?机器狗走向了Spot V1和Big Dog的展示区,并认为这些机器人是它的父辈们。实际上,它们之间确实有关联。
机器狗还展现出了有趣的一面,可以主动向路人询问,周围是否有神秘的生物。
波士顿动力表示,未来还会持续优化该产品的功能。ChatGPT与实体机器人的相结合,为大语言模型实现物理化落地打开了大门,可以在导游、娱乐、物流、陪伴等领域得到广泛应用。
关于波士顿动力
波士顿动力(Boston Dynamics)成立于1992年,总部位于马萨诸塞州波士顿。起初是麻省理工学院(MIT)的一个分支机构,后来发展成为一家独立的公司。
波士顿动力以开发高度先进、灵活且具有实用性的机器人而闻名,其产品在工业、研究和消费领域都有应用,主要代表机器人包括:BigDog、Atlas、Spot、Handle等。
本文素材来源波士顿动力官网,如有侵权请联系删除
END返回搜狐,查看更多
责任编辑:
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!