AI新纪元：ChatGPT-4V模型：拍照提问，万物可解

文章主题：自行车座椅高度, AI 晚餐建议, GPT-4V 模型细节, 拍照上传问题

666AI工具大全，助力做AI时代先行者！

OpenAI 连发两则重磅消息，首先 ChatGPT 可以看、听、说了。

新版 ChatGPT 开启一种更直观的交互方式，可以向 AI 展示正在谈论的内容。

比如拍一张照片，询问如何调整自行车座椅高度。

官方还给出另一个实用场景思路：打开冰箱拍一张照片，询问 AI 晚餐可以吃什么，并生成完整菜谱。

更新将在接下来的两周内向 ChatGPT Plus 订阅用户和企业版用户推出，iOS 和安卓都支持。

与此同时，多模态版 GPT-4V 模型更多细节也一并放出。

其中最令人惊讶的是，多模态版早在2022 年 3 月就训练完了……

看到这里，有网友灵魂发问：有多少创业公司在刚刚 5 分钟之内死掉了？

看听说皆备，全新交互方式

更新后的 ChatGPT 移动 APP 里，可以直接拍照上传，并针对照片中的内容提出问题。

比如 ” 如何调整自行车座椅高度 “，ChatGPT 会给出详细步骤。

如果你完全不熟悉自行车结构也没关系，还可以圈出照片的一部分问 ChatGPT” 说的是这个吗？”。

就像在现实世界中用手给别人指一个东西一样。

当你不确定要使用哪种工具时，ChatGPT 是一个非常有用的参考。它不仅可以指导你找到所需的工具，还能帮助你理解标签上的文字信息。只需将工具箱打开，ChatGPT 就能迅速识别并提示所需工具的位置，同时让你轻松阅读标签上的文字说明。

提前得到使用资格的用户也分享了一些测试结果。

可以分析自动化工作流程图。

但是没有认出一张剧照具体出自哪部电影。

△认出的朋友欢迎在评论区回复

语音部分的演示还是上周 DALL · E 3 演示的联动彩蛋。

让 ChatGPT 把 5 岁小朋友幻想中的 ” 超级向日葵刺猬 ” 讲成一个完整的睡前故事。

△DALL · E3 演示

ChatGPT 这次讲的故事文字摘录如下：

过程中更具体的多轮语音交互细节，以及语音试听可参考视频。

多模态 GPT-4V 能力大揭秘

经过综合分析所有公开的video演示以及GPT-4V System Card中的内容，一些敏锐的网友已经成功地揭示了GPT-4V的视觉能力之谜。

物体检测：GPT-4V 可以检测和识别图像中的常见物体，如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。

文本识别：该模型具有光学字符识别 ( OCR ) 功能，可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。

人脸识别：GPT-4V 可以定位并识别图像中的人脸。它具有一定的能力，可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。

验证码解决：在解决基于文本和图像的验证码时，GPT-4V 显示出了视觉推理能力。这表明该模型具有高级解谜能力。

地理定位：GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力，这证明模型吸收了关于现实世界的知识，但也代表有泄露隐私的风险。

复杂图像：该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。

同时也总结了 GPT-4V 目前的局限性。

空间关系：模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。

对象重叠：当图像中的对象严重重叠时，GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。

背景 / 前景：模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。

遮挡：当图像中某些对象被其他对象部分遮挡或遮挡时，GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。

细节：模型经常会错过或误解非常小的物体、文本或图像中的复杂细节，从而导致错误的关系描述。

上下文推理：GPT-4V 缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。

置信度：模型可能会错误地描述对象关系，与图像内容不符。

同时 System Card 中也重点声明了” 目前在科学研究和医疗用途中性能不可靠 “。

在未来的研究中，我们需要深入探讨一系列问题。首先，我们需考虑是否应让AI模型具备识别人物的能力。其次，关于是否应允许模型从人物图像中推测性别、种族或情感等特征，我们也需要进一步研究。这些问题涉及到AI技术的伦理和社会影响，值得我们投入更多的精力去思考和探讨。

有网友已经想好，等更新了要问的第一件事是 Sam Altman 照片的背包里装的是什么。

那么，你想好第一件事问什么了么？

参考链接：

在OpenAI的博客上，最近发布了一篇关于ChatGPT的最新进展，该技术能够实现看、听、说三种能力。

GPT-4V系统是OpenAI公司近期推出的一款具有强大自然语言处理能力的人工智能技术。该系统的核心组件是GPT-4模型,采用了多种先进的算法和技术,包括指令微调、基于人类反馈的强化学习等,能够实现对自然语言文本的高质量生成和理解。除此之外,GPT-4V还具有一些其他的优势和特点。例如,它能够在多种不同的任务中表现出色,包括文本生成、文本分类、机器翻译等;其次,它的训练数据来源广泛,包括维基百科、新闻文章、社交媒体回帖等,这使得它能够更好地理解和模拟人类的语言行为和思维方式;最后,GPT-4V还具有良好的可扩展性和可定制性,可以根据用户的需求和要求进行调整和改进。总的来说,GPT-4V系统的推出标志着OpenAI在人工智能领域的技术实力和领先地位进一步得到了巩固和加强。相信随着该技术的不断发展和应用,它将会对人类社会产生深远的影响和变革。

我已经按照您的要求对原文进行了改写。以下是改写后的内容：[3] <https://x.com/IntuitMachine/status/1706307412401979455>

[ 4 ] https://x.com/youraimarketer/status/1706461715078975778

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply