文章主题:多模态, 语音输入, 图像输入

666AI工具大全,助力做AI时代先行者!

ChatGPT又迎来大升级,这次是“多模态”,能开口说话,识别物体。

在周一的当地时间,人工智能领域的领军企业OpenAI作出了一个重要宣布。他们计划将ChatGPT的功能扩展到全新的领域,包括语音和图像识别。这一创新性的功能预计将在未来两周内,向 Plus 和企业用户提供。这个消息一发布,立即引起了全球范围内科技爱好者和专业人士的关注。人们对于OpenAI的每一次创新都抱有极高的期待,这次也不例外。ChatGPT的成功已经是有目共睹的,它的智能程度和应用范围都在不断突破人们的想象。这次推出的新功能,无疑将为现有的聊天机器人带来更加强大的能力,也将进一步拓宽ChatGPT的应用场景。无论是对个人用户还是企业用户来说,这都将是一个值得期待的更新。

打开凤凰新闻,查看更多高清图片

OpenAI公司发布声明指出,ChatGPT所提供的语音与图像功能开启了一个全新的、直观的交互界面,使用户能够通过语音对话或向ChatGPT展示正在讨论的内容。这一项新功能将使用户在日常生活中使用ChatGPT的方式更加多样化。

1)用户可以在旅行时拍下一张地标的照片,并就它的有趣之处与ChatGPT进行现场对话;

2)当用户在家时,拍下冰箱和餐具室的照片,ChatGPT可以给出晚餐食谱;

3)如果用户在帮自己的孩子做一道数学题,拍张照片,圈出题集,ChatGPT会给出提示。

新功能有哪些用途?

在OpenAI的介绍中,语音输入功能被类比于智能手机上的语音助手。用户只需轻触一个按钮,便可以提出问题,ChatGPT便会将其转化为文本形式,并生成相应的答案。接着,该答案会被转换回文本格式,并以语音的形式呈现给用户。这一过程类似于手机语音助手的操作,简单便捷,旨在为用户提供更加高效、舒适的交互体验。

OpenAI 研发了一种创新性的文本转语音技术,能够根据极短时间的样本语音,生成与之风格相近的人声。用户可以选择 ChatGPT 的五大音质选项中的一个,这一功能不仅具有广泛的应用前景,更可拓展至将播客内容翻译成多种语言,同时保留播客主持人的独特声音特点。

OpenAI表示,它与配音演员合作,共同构建了该功能的文本到语音AI模型。

图像输入功能与Google Lens类似,允许用户捕捉自己感兴趣的物体并进行上传至ChatGPT的操作。ChatGPT将会努力解析用户所期望了解的信息,并作出相应的回应。此外,用户还可以利用应用程序内的绘图功能来辅助阐述疑问,或者通过语音、文本输入等方式进行沟通。

以OpenAI的实例为例,一位用户上传了一张自行车照片,并咨询ChatGPT如何调整座椅高度。针对此问题,ChatGPT迅速准确地识别出了座椅调节的种类以及所需的工具。

随后,用户又询问其工具箱中哪个是所需的工具,ChatGPT也是成功识别,并提示用户需要拿哪一个尺寸。

设想即将实现?

可以看出,ChatGPT的功能越来越强大,非常智能。此前,OpenAI首席执行官Sam Altman和比尔·盖茨都曾对ChatGPT未来的应用前景进行设想。

Altman曾私下告诉开发者,希望将ChatGPT打造成“超级智能个人工作助理”,可以根据个人及工作需求执行多种任务,如按照用户的风格起草邮件或文件,提供相关业务的最新信息。

盖茨也曾表示,技术竞赛将推动顶级AI助理的诞生,颠覆现有生产力,可能会从根本上改变用户的行为,乃至取代搜索和购物网站。

不过,ChatGPT也提示,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *