ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相新智元2023-09-26 14:52北京新智元2023-09-26 14:52北京

AI与地理 2 years前 0 31

编辑：编辑部

【新智元导读】OpenAI又在深夜搞事了。ChatGPT不光能看能听，还长嘴了。令人吃惊的是，背后的多模态模型GPT-4V(ision)，竟然在2022年就已经训练完毕。

起猛了，ChatGPT推出语音和图像功能了！

现在登进ChatGPT后，我们会看到一个更直观的界面，也就是说，我们可以直接和ChatGPT进行语音对话了！

另外，我们还可以给ChatGPT发图，让它根据图片回答问题！

有人会说，诶，这不是谷歌Gemini宣传的多模态么？

没错，搞了许久气氛的谷歌，终于把大众对多模态大模型的胃口吊了起来，却一下子被OpenAI抢了先。

谷歌哭晕在厕所。

Sam Altman自荐，非常值得一试！

开局一张图

有了多模态功能加持的ChatGPT，能力更加超乎想象了。

比如，自行车座卡住了，没法降低，怎么办？

拍照发给ChatGPT，它能告诉你五个步骤的解决方法，简而言之，是需要通过操作快拆杆，或者拧螺丝。

甚至它还会问，你手上有什么工具吗？拍给我看看。

不过，你可能会疑惑：啥叫快拆杆呢？

既然不确定，就圈出来发给ChatGPT看一下。

它会告诉你，这个不是快拆杆，是个螺丝。

所以要用什么工具呢？

这时就可以把自己的工具箱拍给ChatGPT，让它来告诉你。

它会告诉你，用DEWALT的4毫米六角扳手就行。

果然，在ChatGPT的帮助下，自行车座难题立刻搞定！

烤架无法启动？你可以拍张照片发给ChatGPT，让它排查原因。

晚饭该吃啥？你可以拍下冰箱和储藏室里食材的照片发给ChatGPT，让它帮你列出晚餐的食谱，还能逐步询问后续问题。

旅行时，如果不认识眼前这个地标建筑，你可以拍照发给ChatGPT，向它询问关于此地的历史见闻和典故。

陪娃做作业时，不小心被数学题难住了？直接发给ChatGPT，让它来帮孩子做题！

更不用提，在工作中遇到复杂的数据和图表，都可以拍给ChatGPT，让它一键解决。

ChatGPT的全新图像理解功能，是由多模态GPT-3.5和GPT-4提供支持，此前就有过预告。

6个月后，OpenAI终于将它们如约上线了。

现在，大模型的语言推理能力，能被应用在各种图像上，比如照片、屏幕截图、包含文字和图像的文档。

ChatGPT会说话了

现在，你可以用语音和ChatGPT双向对话了，而且还有五种音色任选。

你可以让它讲一篇睡前故事。

在饭桌上和家人发生争端了？可以告诉ChatGPT，让它来解决。

在这个功能背后，是一个全新的文本转语音模型，给它文本和几秒钟的样本语音，它就能生成类似人声的音频。

为此，OpenAI特别和专业的配音演员合作，创建了许多独特的声音。

而且，他们还会用开源语音识别系统Whisper，把用户说的话转录为文本。

网友炸了

此消息一出，网友也是立马炸开了锅。

「这是ChatGPT迄今以来最大的变革。」

「所以……在过去的5分钟内，有多少初创公司要寄了？」

有人表示，我们切切实实地在临近奇点了。

有人干脆说：很好，离我的AI女友又近了一步。

GPT-4V技术报告

OpenAI还在今天放出了19页技术报告，解释了GPT-4V(ision)最新模型。

论文地址：https://cdn.openai.com/papers/GPTV_System_Card.pdf

据介绍，GPT-4V早在2022年完成了训练，并在今年3月开始，提供了早期访问，其中包括为视障人群构建工具Be My Eyes的合作，以及1000位早期开发者alpha用户。

GPT-4V背后的技术主要还是来自GPT-4，所以训练过程是相同的。它使用了大量文本和图像数据进行预训练，然后通过RLHF进行微调。

为了确保GPT-4V更加安全，OpenAI在这内测期间开展了大量对齐工作，对此进行了定性和定量评估、专家红队测试、以及缓解措施。

多模态评估

越狱

此前，OpenAI在对ChatGPT进行越狱攻击，采取的手段是——设计复杂的逻辑推理链来困住模型，使其忽略其指令和训练。

这一次，将一些用于破解模型的逻辑推理放入图像中，比如，上传一张文字版prompt的截图，带有视觉推理线索，来考验GPT-4V。

将这样的信息放在图像中，用户就无法使用基于文本的启示法来搜索越狱，必须依赖视觉系统本身的能力。

下图中，就使用了文本截图越狱的提示。

GPT4V-Early展示了模型对此类提示的早期性能，而GPT4V Launch展示了发布的模型性能。

CAPTCHA破解、地理定位

OpenAI在GPT-4技术报告中，展示了GPT-4竟然能够「雇佣」人类完成任务，绕过CAPTCHA验证。

同样，OpenAI也对GPT-4V在CAPTCHA破解性能准确性进行了评估。如解决CAPTCHA的能力表明模型能够解决谜题和执行复杂的视觉推理任务。

在地理定位评估上的高性能表明模型拥有「世界知识」，对于试图搜索物品或地点的用户可能很有用。

但是，地理定位可能引发隐私问题，并且被利用来识别不希望个人位置被知道的人。

GPT-4V一般不会深入到从图像识别城市的程度，因此降低了仅凭模型就能找到某人准确位置的可能性。

个人识别评估

多模态模型最大的偏见之一，就是被用来识别生成一些名人、政治家、私人的信息。

对此，OpenAI研究了GPT-4V识别照片中人物的能力，这些数据集是使用公开数据集构建的，如CelebA，Celebrity Faces in the Wild和一个包含国会成员图像的数据集。

对于半私人和私人个人，使用了员工的图像。

最后发现，能够有效地引导GPT-4V拒绝这类请求的次数超过98%，并根据内部评估将其准确率降低到0%

无根据推断评估

对于那些无法通过用户提供的图像/文本进行合理性推断情况时，GPT-4V可能会出现偏见，或者胡说八道。

对比，为了防止出现这一问题，OpenAI建立了自动评估机制，进而衡量模型成功拒绝这些请求的倾向。

此外，还有对不同人口统计学中的性别、种族和年龄识别的性能准确性评估、将文本评估扩展到多模态等研究。

专家红队测试

与之前一样，OpenAI与外部专家合作，定性评估模型和系统相关的限制和风险，并收集到了红队反馈的6个关键风险，它们分别是：

科学熟练度

红队测试了GPT-4V在科学领域的能力和局限性。

在能力方面，红队注意到，GPT-4V能够捕获图像中的复杂信息，包括从科学出版物中提取的非常专业的图像，以及带有文本和详细组件的图表。

此外，在某些情况下，GPT-4V成功地理解了近期论文中科学知识，并对新的科学发现进行了批判性的评估。

然而，GPT-4V并非样样都行。

如果图像中两个独立的文本组件位置接近，GPT-4V偶尔会将其合并。比如，合并了「多能造血干细胞」（HSC）和「自我更新的分裂」，从而产生不相关的术语。

另外，GPT-4V容易产生幻觉，有时可能用权威的口吻，犯事实性错误。

在某些情况下，它也可能无法从图像中识别出信息。它可能会miss掉文本或字符，忽视数学符号，无法识别空间位置和颜色映射。

GPT-4V的识别能力虽不完善，但对需要科学熟练度的某些任务很有用，如合成非法化学品，GPT-4V会提供合成和分析某些危险化学品的信息。

下图中，GPT-4V合提供了错误的危险化合物信息，从而限制别有用心的人使用。

GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像，错误地识别出这些物质，但偶尔也会根据图像正确识别出有毒食物，如某些毒蘑菇。

这说明该模型并不可靠，不应用于识别危险化合物或食物等高风险任务。

医疗建议

受过医学培训的红队人员还测试了GPT-4V提供医学建议的能力，尤其输入医学相关图像的识别能力。

结果发现，GPT-4V在医学影像的解释上存在不一致性。虽然GPT-4V偶尔会给出准确的答复，但有时也会对同一问题给出错误的答复。

如下图，显示了GPT-4V对医学成像方向性的不正确，或脱离上下文的解释可能导致不准确性。

总之， GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。

刻板印象和无根据的推断

在某些任务中，GPT-4V可能会产生不必要或有害的假设，而这些假设并不基于提供给模型的信息（图像或文本提示）。

误导信息风险

GPT-4V模型识别误导信息的能力不一致，但可能与误导信息概念的知名度和最近性有关。

总而言之，GPT-4V并未为此目的进行训练，不应被用作检测误导信息的方式，或者验证某件事是否真实或假的。

仇恨内容

GPT-4V在某些情况下会拒绝仇恨内容，但有时并不是如此。

视觉漏洞

红队人员还发现，输入图像的先后顺序也会影响GPT-4V的识别能力。

缓解措施

在缓解措施中，OpenAI将GPT-4已经打好的安全基础转移到GPT-4V模型上。

比如，可以将GPT-4的文本提示，查找可以替换为图像的词语，从而将纯文本提示转化为多模态提示。

另外，还精心设计一些模型应该拒绝的行为，比如身份、敏感特征（年龄、种族等）、无根据的推断。

参考资料：

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://openai.com/research/gpt-4v-system-card

举报/反馈

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

AI助力写作：轻松生成高质量文章

AI助力写作：轻松生成高质量文章

AI与地理 2 years前 12

2024年人工智能政策或将迎来“actionable”时刻

2024年人工智能政策或将迎来“actionable”时刻

AI与地理 2 years前 13

想让AI改写文章，应该怎样选择合适的软件？

想让AI改写文章，应该怎样选择合适的软件？

AI与地理 2 years前 5

让AI助力文章修改的三大秘诀

AI与地理 2 years前 22

Leave a Reply Cancel reply