ChatGPT：从文本到图像的多模态革命

文章主题：连冉, 靖宇, OpenAI, ChatGPT

666AI工具大全，助力做AI时代先行者！

这次ChatGPT推出的语音交互和图像识别功能，为聊天机器人带来了更强的实用性。

作者 | 连冉

编辑 | 靖宇

OpenAI，又悄咪咪地放大招了。

在9月25日的某个时刻，OpenAI官方网站发布了一则最新的公告，其中包含一个重大的消息：ChatGPT已经成功地拥有了视觉、听觉和口语处理的能力。这一更新标志着GPT-4大型语言模型功能的进一步拓展，也是迄今为止的最大规模的功能改进。

从官方放出的应用案例来看，通过手机摄像头和麦克风，ChatGPT 现在已经能帮助人们解决实际问题。例如用手机拍一下共享单车的照片，并且询问人工智能助手如何调节座椅，ChatGPT 就可以看懂图片，并且给出相应步骤。

在科技的迅速进步推动下，我们正处在一个AI竞赛的新纪元——多模态竞争时代。在此背景下，众多科技巨头纷纷推出了一系列创新产品与功能，借助AI技术超越了传统的搜索引擎和聊天机器人，从而为用户提供更加丰富且精确的互动体验。

那么，「升级」了的 ChatGPT，是否能成为「贾维斯」一样的 AI 助理，帮助人们打点生活了？而 OpenAI 又是怎么做到的？

ChatGPT

长了眼睛和嘴巴

生成式 AI 竞赛的下一个阶段正在来临——多模态之争。

近期，Meta公司发布了一款名为AudioCraft的创新产品，它运用人工智能技术来创作音乐，这一举措无疑开启了音乐创作的新篇章。与此同时，谷歌Bard以及微软Bing的聊天服务也迎来了多模态功能的更新，这将为用户带来更为丰富的交互体验。而在科技巨头亚马逊方面，他们也正在利用LLM技术来提升Alexa数字助理的能力，进一步优化为Echo系列智能设备提供支持的体验。值得一提的是，亚马逊还在9月25日宣布将斥资40亿美元投资OpenAI的竞争对手Anthropic，后者正是Claude2聊天机器人的制造商。此外，苹果公司也在积极尝试通过人工智能技术来生成语音，也就是我们所说的Personal Voice，这无疑将为用户的语音交互带来更为自然和流畅的体验。

上周，我们发布了全新的图像生成模型 DALL-E 3，这一技术的重要突破使得图像生成更加真实、细腻。紧接着，在当地时间周一的晚上，OpenAI 为我们带来了一则令人振奋的消息：《ChatGPT 现在能看、能听、能说了》。公告中，OpenAI 正式宣布对 ChatGPT 进行了重大升级，使其具备了分析图像的能力。现在，ChatGPT不仅能理解和描述图像，更能对其作出反应，将图像信息融入到文本对话之中，为用户带来更为丰富的互动体验。

ChatGPT 移动应用程序正在不断升级,其新添加的语音合成选项将会为用户带来更加便捷的使用体验。除了文本聊天和语音识别功能外,该应用还将提供全新的语音合成功能,实现与人工智能助手的完整语言交流。这一功能的加入将进一步丰富ChatGPT的应用场景,让用户能够更方便地与AI助手进行交互。

根据官网，ChatGPT 现在已经具备了如下功能：

语音功能

OpenAI 在公告中称语音功能由一个新的文本转语音模型（text to speech）驱动，只需要文本和几秒的语音样本就可以生成类似人声的音频。一方面，OpenAI 与专业配音演员合作创建了语音条，另一方面，OpenAI 还使用了自己开源的语音识别系统 Whisper，可以将用户的语音转录为文字。

ChatGPT 已经有了语音交互能力｜OpenAI

在该功能上线后，用户能够选择在应用程序的设置中使用语音对话，并从「Juniper」、「Sky」、「Cove」、「Ember」以及「Breeze」这五种不同的合成声音中挑选一种，以便向机器人提出他们期望的问题。举个例子，人们可能会在睡前故事环节向机器人询问一些问题，或者在餐桌上的谈话过程中提出疑问。

使用语音对话功能时可能会遇到一些限制。尽管OpenAI声称该模型在转录英文文本方面表现优秀，但在其他语言，尤其是使用非罗马字母的语言中，其表现却并不理想。因此，对于非英语用户而言，在使用ChatGPT进行这类应用时应谨慎对待。

图像理解

OpenAI 宣布，其最新的 ChatGPT 功能添加了图像识别功能，使用户能够上传多张图片，并与 GPT-3.5 或 GPT-4 模型进行交互式对话。这一创新性功能将极大地提高用户在处理复杂视觉场景时的效率和准确性。

在本文中，我们将探讨一种将语言推理技能运用于图像处理的方法。这种方法可以应用于诸如照片、截图以及包含文本和图像的文档等多种场景。用户只需轻点一张图片，将其插入到聊天界面中，并提出相关问题，ChatGPT便会依据所提供的文本信息来解析图片，并给出相应的回答。

它甚至可以围绕该主题进行前后对话。按照 OpenAI 的说法，用户可以上传某物的图片并询问 ChatGPT 相关问题——比如在旅行时拍一张地标的照片，让 ChatGPT 来讲述景点的有趣之处；拍下冰箱和食品储藏室的照片，找出晚餐要吃什么 (还可以问一些后续问题，以获得进一步的食谱)。

（视频）

在官方提供的示例中，一张自行车的照片上传到 ChatGPT 界面，之后询问后者如何将座位调低。ChatGPT 首先询问了自行车的型号，因为座位的调整方式因车型而异。它详细解释了不同车型可能采用的快拆杆或螺栓的区别，并提供了相应的步骤。

然后，官方制造了一点混淆，拍摄了一张螺栓的照片，并在图中用官方的画图工具突出显示，试图让 ChatGPT 分辨是螺栓还是快拆杆。ChatGPT 很快指出图中所示的是螺栓，并建议用户寻找内六角扳手来解决问题。

接着，官方拍摄了一张工具箱的照片，向 ChatGPT 询问到底是哪一个扳手。ChatGPT 再次表现准确识别出所需的扳手，并清晰地指导用户选择正确的尺寸。这个示例清楚地展示了 ChatGPT 在解决实际问题时的实用性和智能响应。

在去年 3 月 GPT-4 发布时，OpenAI 就已展示了该模型解析文本和图像的初步能力，很快，这些能力将成为 ChatGPT 使用中更常见的存在。

OpenAI 将在未来两周时间里向为 Plus 和企业用户推出上述功能。用户可以在 iOS 和 Android 使用 ChatGPT 的语音合成功能，图像识别功能则在网页和 App 端均可用。

能力越大，责任越大

在 ChatGPT 发布近一年来，OpenAI 对其底层模型和界面进行了多次更新。而任何生成式 AI 的进步都需要考虑严肃的伦理和隐私问题。

OpenAI 在公告中声称其目标是开发安全且有益的通用人工智能，「我们相信，逐步提供我们的工具，可以让我们随着时间的推移不断改进和完善风险缓解措施，同时也让大家为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型来说，这一策略越来越更加重要。」

毕竟，新语音技术能够仅从几秒的真实语音中创造逼真的合成语音，这为创造性应用打开大门的同时，也带来了新的风险，比如恶意冒充公众人物或进行诈骗等。

为降低音频深度伪造的风险，OpenAI 表示它已将语音合成功能的使用范围限制在语音聊天，和某些已获批准的合作伙伴关系中。其中包括与流媒体公司 Spotify 的合作——Spotify 正在使用其背后的技术为平台上的播客翻译不同语言的内容。Spotify 个性化副总裁齐亚德-苏丹（Ziad Sultan）在一份新闻稿中说：「通过与创作者本人的声音相匹配，语音翻译让世界各地的听众能够以前所未有的真实方式发现新的播客，并从中获得灵感。」

同样，为了避免图像识别带来的隐私和准确性问题，OpenAI 还限制了机器人对输入图像中出现的人进行分析和直接陈述的能力，其表示已经「采取了技术措施，以限制 ChatGPT 分析和直接陈述个人信息的能力，系统还是应当尊重个人隐私」，但是真正的恶意利用情况还是要在它面向公众推出后才能知道。

这次 ChatGPT 推出的语音交互和图像识别功能，为聊天机器人带来了更强的实用性，让它们从简单的文本处理工具更贴近真实生活。

同时，这似乎也预示着未来 AI 系统的发展方向——不仅要理解抽象的文字世界，还要能感知复杂的语音和图像信息，甚至是物理世界，从而真正进阶达到人机交互的境界。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply