AI与地理_Page 22_123智子教育

AI与地理

ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相新智元2023-09-26 14:52北京新智元2023-09-26 14:52北京

编辑：编辑部【新智元导读】OpenAI又在深夜搞事了。ChatGPT不光能看能听，还长嘴了。令人吃惊的是，背后的多模态模型GPT-4V(ision)，竟然在2022年就已经训练完毕。起猛了，ChatGPT推出语音和图像功能了！现在登进ChatGPT后，我们会看到一个更直观的界面，也就是说，我们可以直接和ChatGPT进行语音对话了！另外，我们还可以给ChatGPT发图，让它根据图片回答问题！有人会说，诶，这不是谷歌Gemini宣传的多模态么？没错，搞了许久气氛的谷歌，终于把大众对多模态大模型的胃口吊了起来，却一下子被OpenAI抢了先。谷歌哭晕在厕所。 Sam Altman自荐，非常值得一试！开局一张图有了多模态功能加持的ChatGPT，能力更加超乎想象了。比如，自行车座卡住了，没法降低，怎么办？拍照发给ChatGPT，它能告诉你五个步骤的解决方法，简而言之，是需要通过操作快拆杆，或者拧螺丝。甚至它还会问，你手上有什么工具吗？拍给我看看。不过，你可能会疑惑：啥叫快拆杆呢？既然不确定，就圈出来发给ChatGPT看一下。它会告诉你，这个不是快拆杆，是个螺丝。所以要用什么工具呢？这时就可以把自己的工具箱拍给ChatGPT，让它来告诉你。它会告诉你，用DEWALT的4毫米六角扳手就行。果然，在ChatGPT的帮助下，自行车座难题立刻搞定！烤架无法启动？你可以拍张照片发给ChatGPT，让它排查原因。晚饭该吃啥？你可以拍下冰箱和储藏室里食材的照片发给ChatGPT，让它帮你列出晚餐的食谱，还能逐步询问后续问题。旅行时，如果不认识眼前这个地标建筑，你可以拍照发给ChatGPT，向它询问关于此地的历史见闻和典故。陪娃做作业时，不小心被数学题难住了？直接发给ChatGPT，让它来帮孩子做题！更不用提，在工作中遇到复杂的数据和图表，都可以拍给ChatGPT，让它一键解决。 ChatGPT的全新图像理解功能，是由多模态GPT-3.5和GPT-4提供支持，此前就有过预告。 6个月后，OpenAI终于将它们如约上线了。现在，大模型的语言推理能力，能被应用在各种图像上，比如照片、屏幕截图、包含文字和图像的文档。 ChatGPT会说话了现在，你可以用语音和ChatGPT双向对话了，而且还有五种音色任选。你可以让它讲一篇睡前故事。在饭桌上和家人发生争端了？可以告诉ChatGPT，让它来解决。在这个功能背后，是一个全新的文本转语音模型，给它文本和几秒钟的样本语音，它就能生成类似人声的音频。为此，OpenAI特别和专业的配音演员合作，创建了许多独特的声音。而且，他们还会用开源语音识别系统Whisper，把用户说的话转录为文本。网友炸了此消息一出，网友也是立马炸开了锅。「这是ChatGPT迄今以来最大的变革。」「所以……在过去的5分钟内，有多少初创公司要寄了？」有人表示，我们切切实实地在临近奇点了。有人干脆说：很好，离我的AI女友又近了一步。 GPT-4V技术报告 OpenAI还在今天放出了19页技术报告，解释了GPT-4V(ision)最新模型。论文地址：https://cdn.openai.com/papers/GPTV_System_Card.pdf...

3 years前 31

“多模态聊天机器人：OpenAI推出DALL·E3后再次引发热议”

ChatGPT应用revenuerecordhighinSeptember,butgrowthslowsdown

《DALL·E3与ChatGPT探索：AI艺术与语言的边界》

ChatGPT看图说话大变身！动嘴传图秒解答，幕后新模型GPT-4V亮相新智元2023-09-26 14:52北京新智元2023-09-26 14:52北京