不是所有情况下都能够正常使用，例如当图片中包含文本时，ChatGPT无法识别文本内容不过，总体来说ChatGPT的图像读取能力已经相当强大，能够帮助用户解决许

文章主题：AI, 深度学习框架, TensorFlow, 聊天机器人

在过去，谷歌在人工智能（AI）领域独占鳌头，其开源的深度学习框架TensorFlow更是被视为AI领域的基石。然而，这一格局在2022年秋季发生了剧变，OpenAI推出的ChatGPT使谷歌迅速失去了优势。令人意外的是，仅仅一年之后，OpenAI再次“截胡”了谷歌。

近日，OpenAI 突然发布了一则公告，公告的标题为《ChatGPT 现在能看、能听、能说》，同时宣布该系统将在未来两周内向 Plus 和企业用户提供语音和图像功能的 ChatGPT。这一消息的发布似乎毫无征兆，引发了业界对 OpenAI 技术发展的高度关注。

依据OpenAI所提供的线索，我们得知ChatGPT的多模态版本早在10个月前就已经完成训练。然而，为何在此之前一直秘而不宣，直至如今突然亮相呢？有关人士猜测，这或是出于防止谷歌抢跑的考虑。

近期，业界流传着关于谷歌即将推出多模态模型Gemini的消息，并预期其将对AI行业的发展产生重大影响。根据桑达尔·皮查伊的阐述，Gemini具备多元化的技术特点，能够同时输出文本与图像信息，同时亦支持利用相关工具与API。因此，在外部市场，面对谷歌强大的竞争压力，OpenAI显然需要采取实际行动以应对。

在新一轮的升级中，ChatGPT 的能力得到了显著的提升，它不再仅限于处理文字信息，而是成功地扩展到了语音和图像领域。其语音识别功能尤为突出，使其具备了类似于Siri和小爱同学的功能。用户 now 可以从中选择五种不同的语音，并且ChatGPT 能够支持语音合成文本以及将播客内容翻译成其他语言等多种实用功能。值得一提的是，今年5月，ChatGPT 就已经拥有了语音转文本的功能，因此现在上线文本转语音的功能可以说是水到渠成的事情。

今年春季，OpenAI 展示了他们的新一代语言模型 GPT-4 的强大功能之一——图像识别能力。在演示过程中，OpenAI 联合创始人 Greg Brockman 在一张纸上简要勾勒出他的网站设计草图，并将其拍摄成照片上传至 GPT-4。紧接着，GPT-4 迅速生成了该网站的 HTML 代码。然而，当时这一突破性的图像识别技术并未引起人们足够的关注，因为它被 GPT-4 更出色的推理判断能力所掩盖。

尽管看起来 OpenAI 为 ChatGPT 赋予的这两个新能力似乎有些平平无奇，但实际上它们会让 ChatGPT 的体验更上一层楼。

先来说说 ChatGPT 能听懂用户说什么，并直接用语音与用户对话这个功能，据悉 OpenAI 联手专业配音演员为 ChatGPT 提供了 Juniper、Sky、Cove、Ember 和 Breeze 五种不同的合成声音。其实 ChatGPT 的语音能力确实没有出人意料，因此它的本质还是语音合成 TTS（Text-to-Speech）。

在经过十余年的发展后，如今的 TTS 技术其实已经相当成熟，AI 会将输入的文本内容先切分词语、分割句子、标注语音语调，进而确定文本结构和语义信息，再结合语音合成模型，来生成包括音高、音量、语速、韵律在内的声学模型，最后加入波形合成就让 AI 能说话了。而 ChatGPT 的优势，在于它可以进行自然流畅的对话，几乎能模仿人类对话的方式，这就会让用户与它的对话有一种和人类、而非机器，隔着屏幕交流的体验。

如果说语音能力让 ChatGPT 更像 ” 人 “，那么读取图像的能力就可以说是此次 ChatGPT 多模态能力中最让人惊喜的部分了。此前，OpenAI 在 GPT-4 上展示从草稿到网站的功能被称为 ” 代码解释器 “（后改名为高级数据分析），但其面向的场景极为有限。而如今 ChatGPT 的图像读取能力则更加贴近用户的日常生活，毕竟随便一拍的照片就能得到 ChatGPT 的回应。

根据 OpenAI 方面给出的示例，用户现在可以拍一张冰箱的照片，然后让 ChatGPT 来推荐菜谱；在旅行时拍一张地标的照片，让 ChatGPT 来讲述这处景点的有趣之处；还能拍一张数学题的照片，让 ChatGPT 来解答；更可以在炒股时拍一张 K 线图，让 ChatGPT 来替你看盘。但值得一提的是，OpenAI 也主动对 ChatGPT 的图像读取能力进行了限制。

如果想要凭借一张电影的截图来让 ChatGPT 追溯电影的出处，ChatGPT 是不会理你的，如果想要用一张名人的照片来让 ChatGPT 评价这个人，它也会拒绝。简单来说，ChatGPT 会拒绝一切可能在法律和伦理上引发风险的问题。其实这也很好理解，毕竟正处于风口浪尖上的 OpenAI，确实需要爱惜羽毛以避免陷入更多的漩涡中。

在已经收到更新的用户测试中，ChatGPT 的图像读取并非是传统的 ” 以图搜图 “。有网友使用 Midjourney 现场生成的图片，但 ChatGPT 依然能够准确辨识这张图片的内容，这也就意味着 ChatGPT 是在真正意义上拥有了理解图像的能力。当然，ChatGPT 的图像读取功能并非万能，OpenAI 方面就在相关论文中指出，ChatGPT 会在空间感、多个图层混合、上下文推理、遮挡纹理等场景产生 ” 幻觉 “。

如果仅仅只是这样，ChatGPT 的图像读取能力可能并不会让人特别兴奋，它真正的 ” 王炸 ” 在于识别验证码。现在许多用户对于验证码厌烦透顶，这显然已经是不争的事实，面对各种稀奇古怪的验证码，特别是诸如 12306 验证码识图这种让机器束手无策、更难倒了许多用户的情况，未来也完全可以让 ChatGPT 代劳。只不过，这一技术也会带来一定的弊端。

要知道，验证码这一如今在互联网上被广泛使用的技术，其实就是为了区分人类和机器的操作而诞生。ChatGPT 能够准确识别验证码，就等于动摇了整个验证码体系。毕竟验证码作为一个反向的 ” 图灵测试 “，确实在一定程度上隔绝了机器人的侵扰。一旦 ChatGPT 辨识验证码的能力被黑产应用，或许 X、Instagram、微博、知乎等社交平台的机器人恐怕就会更加猖獗。

或许，这就是新技术所带来的阵痛吧。

【本文图片来自网络】

查看原文

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply