“多模态聊天机器人：OpenAI推出DALL·E3后再次引发热议”

文章主题：尚恩, 邓咏仪, 聊天机器人, 人工智能

文 | 尚恩

编辑 | 邓咏仪

在DALL·E 3发布之后不久，OpenAI便在深夜时分推出多模态ChatGPT，再次引发业界关注。

来源：OpenAI

在美国时间的9月25日晚，人工智能领域的领军企业OpenAI在其招牌产品ChatGPT中，一次性推出了全新的语音和图像功能，为用户提供了前所未有的便捷体验。现在，用户不仅可以与ChatGPT进行文字交流，更可以直接与其进行语音对话，甚至可以展示正在讨论的内容。换句话说，ChatGPT已经实现了看、听、说的全方位功能，再次展现了其领先技术地位。

比如拍一张照片，询问如何调整自行车座椅高度，GPT 给你说的头头是道。

又或者，晚上回家后打开冰箱不知道吃啥，拍张照扔给 GPT，它就能生成详细的菜谱。

OpenAI 宣布，其多模态功能将在两周内率先面向“ChatGPT Plus”订阅用户和企业版用户推出，同时支持 iOS 和安卓平台。

多模态版GPT-4V模型的训练时间实际上早于2022年,与GPT-4模型同期进行训练。令人惊讶的是,官方并没有公开这些实操细节。

来源：公开网络

消息一出，网上可是炸开了锅，不少网友纷纷表示 ” 太牛了 “！

来源：X（Twitter）

也有网友开始做梦畅想：” 终于可以拥有 HER 同款女友了 “。

看完这些演示，也有一部分网友暗暗发问：

有多少创业公司的饭碗在刚刚 5 分钟内被抢了？

能说会看，一种新的交互方式

最近，OpenAI 官方发布了一则重要消息，宣布将针对“基于图片的对话”和“实时语音对话”两个领域进行升级。现在，用户只需在ChatGPT的应用程序中，便可以直接通过拍照的方式上传图片并启动对话，这一创新性的功能将为用户提供更加便捷的沟通体验。

在探讨基于图片对话的 functionality 时，例如 “如何调整自行车座椅高度”，ChatGPT 会提供详尽的操作步骤，同时强调在执行前需首先确定 “快拆杆” 的位置。

即使完全不熟悉自行车结构也没关系，可以直接在 App 上圈出照片的一部分，丢给 GPT 让它解释。就像在手机图片上直接圈出来一样，简单到飞起。

只见 GPT 立马就能识别出圈出的部分不是快拆杆，而是螺栓，并表示还需要找一个六角形扳手。

不知道用什么工具，也没关系，直接把工具箱打开拍给 ChatGPT，它不光能指出需要的工具，甚至连标签上的文字也能看懂，咱就是说也太方便了吧… .

语音部分的演示，则还是上周 DALL · E 3 演示的 ” 小刺猬 “，这次是让 ChatGPT 把 5 岁小朋友幻想中的 ” 超级向日葵刺猬 ” 讲成一个完整的睡前故事。

此次 ChatGPT 升级背后的技术主要依赖于语音识别和语音合成，语音识别部分则是基于自家开源的 Whisper 模型，生成部分是基于额外的 TTS（text-to-speech）模型进行，目前语音合成支持五种语音。

用户可以从 “Juniper、Sky、Cove、Ember、Breeze” 等五种不同的合成声音中进行选择，OpenAI 表示这些声音都是与专业配音演员合作制作的。

更多语音交互细节，可试听官方的视频。

多模态模型更多细节

这次放出的 ChatGPT 多模态模型，官方版本叫 GPT-4V ( ision ) 。

根据 OpenAI 释出的报告显示，与 GPT-4 类似，GPT-4V 的训练是在 2022 年完成的，今年 3 月开始进行系统早期访问内测。鉴于 GPT-4 是 GPT-4V 视觉功能背后的技术，因此训练过程也是一样的。之后出于人工智能安全和合规考量，才等到现在才放出来。

结合所有公布的视频演示与 GPT-4V System Card 中的内容，下面简单总结了 GPT-4V 的视觉能力。

物体检测：可以检测和识别图像中的常见物体，如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。

文本识别：模型具有光学字符识别 ( OCR ) 功能，可以检测图像中的打印或手写文本并将其转录为机器可读文本。

人脸识别：可以定位并识别图像中的人脸，根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量。

验证码解决：在解决基于文本和图像的验证码时，GPT-4V 显示出了视觉推理能力。

地理定位：具有识别风景图像中描绘的城市或地理位置的能力。

当然，看似强大的 GPT-4V ( ision ) ，也有一些局限性。

比如，在空间关系方面，目前模型可能很难理解图像中对象的精确空间布局和位置，无法正确传达对象之间的相对位置；当图像中的对象严重重叠时，会无法进行区分并把不同对象混在一起；模型上下文推理能力不够，缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系等。

另外，对于非常小的物体、文本或图像中的复杂细节，模型经常会错过或误解，从而导致错误的关系描述。

上面提到过，之所以现在才放出多模态模型，主要原因是为了确保模型安全性和效用。

对于模型安全这块，OpenAI 也进行一系列的评估。团队采用逐步部署策略，首先提供给一小部分用户试用，以便收集反馈和识别潜在风险，如系统误报或人脸识别的隐私问题等。之后进行了比较长时间全面综合评估，包括聘请外部专家进行伦理测试和建立性能度量标准。

在评估过程中，团队发现模型会出现例如无法给予准确医学建议、刻板印象、无根据的推断等问题。为缓解这些问题，OpenAI 也采取措施，包括 ” 增加安全训练数据以拒绝不当请求，并改进系统以应对文字和图像的挑战 “。

回看 OpenAI 的每次重量级产品发布 / 提升，都是在竞争对手推出新品后立即做出反应。比如，在谷歌宣布自己的最强大模型 “Gemini”、推出了 Bard 拓展程序（Extensions）后，OpenAI 立马就用 DALL · E 3 和多模态模型 GPT-4V ( ision ) ，又把业界惊艳了一把。

这其中，作为 OpenAI 话事人的 Sam Altman，其对商业嗅觉的超高灵敏度在很大程度上让 OpenAI 一直保持领先状态，而这一次在多模态大战中，又小赢了一把。

长按添加「智涌」小助手入群

添加请备注：公司 + 职务

来源：公众号【智能涌现】

查看原文

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply