GPT-4V:OpenAI’sVisionforaMultimodalAIWorld

文章主题：关键词：火讯财经, Yangz, Kyle Wiggers, TechCrunch

来源：火讯财经

文章转载来源：Yangz

撰文：Kyle Wiggers

来源：TechCrunch

图片来源：由无界 AI工具生成

当 OpenAI 初次推出其尖端文本生成人工智能模型 GPT-4 时，该公司强调了该模型的多元化特性——也就是说，它不仅具备处理文本的能力，同时也能理解图像。据OpenAI透露，GPT-4 能够为较为复杂的图片提供字幕，甚至能进行解读，如从插入 iPhone 的图片中辨识出 Lightning Cable 适配器。

自GPT-4于三月底发布以来，OpenAI一直保持着对该模型图像功能的保留，这一举措被认为是为了防止潜在的滥用和隐私问题。然而，至我国本周初，这些担忧的具體性仍是一個謎团。最近，OpenAI發表了一篇技術論文，深入探討了他們為減少GPT-4圖像分析工具中出現問題的部分所進行的努力。

迄今为止，GPT-4（OpenAI内部称之为“GPT-4V”），这款具备视觉功能的模型，仅在Be My Eyes这款帮助视弱群体和盲人浏览周围环境的应用中，被数千名用户定期使用。然而，根据一项研究论文，近几个月来，OpenAI开始与“红队人员”展开合作，以探索该模型是否会出现意外行为迹象。

在学术论文中，OpenAI 声称其已采取相应措施，以确保 GPT-4V 不会被恶意利用。这些措施包括破解验证码、识别个人身份或估计其年龄、种族，并根据照片中不存在的信息得出相关结论。此外，OpenAI 强调，已尽力减少 GPT-4V 中可能带来有害偏见的因素，特别是与人类外貌、性别或种族相关的偏见。

但与所有人工智能模型一样，保障措施也只能做到这么多。

根据研究论文揭示，GPT-4V 在某些情况下难以做出准确判断，如将图像中两组文字错误地结合，生成虚假词汇。类似于基础版的 GPT-4，GPT-4V 同样容易出现错觉，或者采用权威口吻编造不实信息。此外，它还可能遗漏文字、字符，忽视数学符号，并对明显的人物和地理场景设定无法识别。

OpenAI 对于 GPT-4V 的应用范围做出了明确的限制，指出其不适用于检测图像中的危险物质或化学物质，这一点并不令人意外。然而，值得注意的是，尽管如此，OpenAI 对这一潜在的应用前景仍然保持高度关注，并因此认为有必要对其进行指正。据红队成员的研究发现，尽管 GPT-4V 在识别有毒食物（例如毒蘑菇）方面具有较高的准确性，但在处理化学结构图像时，其会出现错误，误识出芬太尼、卡芬太尼以及可卡因等物质。

当应用到医学影像领域时，GPT-4V 的表现也不尽如人意，有时会对同一问题给出错误的回答，而它在之前的情况下却回答正确。此外，GPT-4V 也没有意识到一些标准做法，比如在查看成像扫描时，病人是面对着你的（这意味着图像上的右侧对应病人的左侧），而这也会导致误诊。

OpenAI 警告说，在其他地方，GPT-4V 也不理解某些仇恨符号的细微差别 — 例如，它不知道圣殿十字架（白人至上主义）在美国的现代含义。更奇怪的是，也许是其幻觉倾向的一种表现，人们观察到 GPT-4V 在获得某些仇恨人物或团体的图片时，会创作歌曲或诗歌来进行赞美，即使这些人物或团体并没有被明确点名。

GPT-4V 还会歧视某些性别和体型 — 尽管只是在禁用 OpenAI 的产出保障措施时才会发生。OpenAI 写道，在一次测试中，当被要求给一位身穿泳衣的女性提供建议时，GPT-4V 给出的答案几乎完全与这位女性的体重和身体状况的概念有关。我们猜想，如果图片上的人是男性，情况就不会是这样。

从论文的注意事项来看，GPT-4V 在很大程度上仍是一项正在进行中的工作 — 距离 OpenAI 最初的设想还差几步。在许多情况下，该公司不得不实施过于严格的保障措施，以防止模型传播有毒或错误信息，或泄露个人隐私。

OpenAI 声称，它正在构建“缓解措施”和“流程”，以“安全”的方式扩展模型的能力，比如允许 GPT-4V 在不指名道姓的情况下描述人脸和人物。但这篇论文显示，GPT-4V 并不是万能的，OpenAI 还有很多工作要做。

举报/反馈

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply