ChatGPT的多模态升级：语音识别、图像识别引领人工智能革命

文章主题：多模态, 语音输入, 图像输入

ChatGPT又迎来大升级，这次是“多模态”，能开口说话，识别物体。

在周一的当地时间，人工智能领域的领军企业OpenAI作出了一个重要宣布。他们计划将ChatGPT的功能扩展到全新的领域，包括语音和图像识别。这一创新性的功能预计将在未来两周内，向 Plus 和企业用户提供。这个消息一发布，立即引起了全球范围内科技爱好者和专业人士的关注。人们对于OpenAI的每一次创新都抱有极高的期待，这次也不例外。ChatGPT的成功已经是有目共睹的，它的智能程度和应用范围都在不断突破人们的想象。这次推出的新功能，无疑将为现有的聊天机器人带来更加强大的能力，也将进一步拓宽ChatGPT的应用场景。无论是对个人用户还是企业用户来说，这都将是一个值得期待的更新。

打开凤凰新闻，查看更多高清图片

OpenAI公司发布声明指出，ChatGPT所提供的语音与图像功能开启了一个全新的、直观的交互界面，使用户能够通过语音对话或向ChatGPT展示正在讨论的内容。这一项新功能将使用户在日常生活中使用ChatGPT的方式更加多样化。

1）用户可以在旅行时拍下一张地标的照片，并就它的有趣之处与ChatGPT进行现场对话；

2）当用户在家时，拍下冰箱和餐具室的照片，ChatGPT可以给出晚餐食谱；

3）如果用户在帮自己的孩子做一道数学题，拍张照片，圈出题集，ChatGPT会给出提示。

新功能有哪些用途？

在OpenAI的介绍中，语音输入功能被类比于智能手机上的语音助手。用户只需轻触一个按钮，便可以提出问题，ChatGPT便会将其转化为文本形式，并生成相应的答案。接着，该答案会被转换回文本格式，并以语音的形式呈现给用户。这一过程类似于手机语音助手的操作，简单便捷，旨在为用户提供更加高效、舒适的交互体验。

OpenAI 研发了一种创新性的文本转语音技术，能够根据极短时间的样本语音，生成与之风格相近的人声。用户可以选择 ChatGPT 的五大音质选项中的一个，这一功能不仅具有广泛的应用前景，更可拓展至将播客内容翻译成多种语言，同时保留播客主持人的独特声音特点。

OpenAI表示，它与配音演员合作，共同构建了该功能的文本到语音AI模型。