AI与地理
编辑:编辑部 【新智元导读】OpenAI又在深夜搞事了。ChatGPT不光能看能听,还长嘴了。令人吃惊的是,背后的多模态模型GPT-4V(ision),竟然在2022年就已经训练完毕。 起猛了,ChatGPT推出语音和图像功能了! 现在登进ChatGPT后,我们会看到一个更直观的界面,也就是说,我们可以直接和ChatGPT进行语音对话了! 另外,我们还可以给ChatGPT发图,让它根据图片回答问题! 有人会说,诶,这不是谷歌Gemini宣传的多模态么? 没错,搞了许久气氛的谷歌,终于把大众对多模态大模型的胃口吊了起来,却一下子被OpenAI抢了先。 谷歌哭晕在厕所。 Sam Altman自荐,非常值得一试! 开局一张图 有了多模态功能加持的ChatGPT,能力更加超乎想象了。 比如,自行车座卡住了,没法降低,怎么办? 拍照发给ChatGPT,它能告诉你五个步骤的解决方法,简而言之,是需要通过操作快拆杆,或者拧螺丝。 甚至它还会问,你手上有什么工具吗?拍给我看看。 不过,你可能会疑惑:啥叫快拆杆呢? 既然不确定,就圈出来发给ChatGPT看一下。 它会告诉你,这个不是快拆杆,是个螺丝。 所以要用什么工具呢? 这时就可以把自己的工具箱拍给ChatGPT,让它来告诉你。 它会告诉你,用DEWALT的4毫米六角扳手就行。 果然,在ChatGPT的帮助下,自行车座难题立刻搞定! 烤架无法启动?你可以拍张照片发给ChatGPT,让它排查原因。 晚饭该吃啥?你可以拍下冰箱和储藏室里食材的照片发给ChatGPT,让它帮你列出晚餐的食谱,还能逐步询问后续问题。 旅行时,如果不认识眼前这个地标建筑,你可以拍照发给ChatGPT,向它询问关于此地的历史见闻和典故。 陪娃做作业时,不小心被数学题难住了?直接发给ChatGPT,让它来帮孩子做题! 更不用提,在工作中遇到复杂的数据和图表,都可以拍给ChatGPT,让它一键解决。 ChatGPT的全新图像理解功能,是由多模态GPT-3.5和GPT-4提供支持,此前就有过预告。 6个月后,OpenAI终于将它们如约上线了。 现在,大模型的语言推理能力,能被应用在各种图像上,比如照片、屏幕截图、包含文字和图像的文档。 ChatGPT会说话了 现在,你可以用语音和ChatGPT双向对话了,而且还有五种音色任选。 你可以让它讲一篇睡前故事。 在饭桌上和家人发生争端了?可以告诉ChatGPT,让它来解决。 在这个功能背后,是一个全新的文本转语音模型,给它文本和几秒钟的样本语音,它就能生成类似人声的音频。 为此,OpenAI特别和专业的配音演员合作,创建了许多独特的声音。 而且,他们还会用开源语音识别系统Whisper,把用户说的话转录为文本。 网友炸了 此消息一出,网友也是立马炸开了锅。 「这是ChatGPT迄今以来最大的变革。」 「所以……在过去的5分钟内,有多少初创公司要寄了?」 有人表示,我们切切实实地在临近奇点了。 有人干脆说:很好,离我的AI女友又近了一步。 GPT-4V技术报告 OpenAI还在今天放出了19页技术报告,解释了GPT-4V(ision)最新模型。 论文地址:https://cdn.openai.com/papers/GPTV_System_Card.pdf...