ChatGPT App重大进化!能看能听还会说,多模态模型细节同时公布量子位2023-09-26 10:22北京量子位2023-09-26 10:22北京
AI与地理

ChatGPT App重大进化!能看能听还会说,多模态模型细节同时公布量子位2023-09-26 10:22北京量子位2023-09-26 10:22北京

梦晨 发自 凹非寺量子位 | 公众号 QbitAI OpenAI连发两则重磅消息,首先ChatGPT可以看、听、说了。 新版ChatGPT开启一种更直观的交互方式,可以向AI展示正在谈论的内容。 比如拍一张照片,询问如何调整自行车座椅高度。 官方还给出另一个实用场景思路:打开冰箱拍一张照片,询问AI晚餐可以吃什么,并生成完整菜谱。 更新将在接下来的两周内向ChatGPT Plus订阅用户和企业版用户推出,iOS和安卓都支持。 与此同时,多模态版GPT-4V模型更多细节也一并放出。 其中最令人惊讶的是,多模态版早在2022年3月就训练完了…… 看到这里,有网友灵魂发问:有多少创业公司在刚刚5分钟之内死掉了? 看听说皆备,全新交互方式 更新后的ChatGPT移动APP里,可以直接拍照上传,并针对照片中的内容提出问题。 比如“如何调整自行车座椅高度”,ChatGPT会给出详细步骤。 如果你完全不熟悉自行车结构也没关系,还可以圈出照片的一部分问ChatGPT“说的是这个吗?”。 就像在现实世界中用手给别人指一个东西一样。 不知道用什么工具,甚至可以把工具箱打开拍给ChatGPT,它不光能指出需要的工具在左边,连标签上的文字也能看懂。 提前得到使用资格的用户也分享了一些测试结果。 可以分析自动化工作流程图。 但是没有认出一张剧照具体出自哪部电影。 △认出的朋友欢迎在评论区回复 语音部分的演示还是上周DALL·E 3演示的联动彩蛋。 让ChatGPT把5岁小朋友幻想中的“超级向日葵刺猬”讲成一个完整的睡前故事。 △DALL·E3演示 ChatGPT这次讲的故事文字摘录如下: 过程中更具体的多轮语音交互细节,以及语音试听可参考视频。 多模态GPT-4V能力大揭秘 结合所有公布的视频演示与GPT-4V System Card中的内容,手快的网友已经总结出GPT-4V的视觉能力大揭秘。 物体检测:GPT-4V可以检测和识别图像中的常见物体,如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。文本识别:该模型具有光学字符识别 (OCR) 功能,可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。人脸识别:GPT-4V可以定位并识别图像中的人脸。它具有一定的能力,可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。验证码解决:在解决基于文本和图像的验证码时,GPT-4V显示出了视觉推理能力。这表明该模型具有高级解谜能力。地理定位:GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力,这证明模型吸收了关于现实世界的知识,但也代表有泄露隐私的风险。复杂图像:该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。同时也总结了GPT-4V目前的局限性。 空间关系:模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。对象重叠:当图像中的对象严重重叠时,GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。背景/前景:模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。遮挡:当图像中某些对象被其他对象部分遮挡或遮挡时,GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。细节:模型经常会错过或误解非常小的物体、文本或图像中的复杂细节,从而导致错误的关系描述。上下文推理:GPT-4V缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。置信度:模型可能会错误地描述对象关系,与图像内容不符。同时System...
Oneoperatingsystemtorulethemall:OpenInterpreter
AI与地理

Oneoperatingsystemtorulethemall:OpenInterpreter

这篇文章介绍了一个名为Open Interpreter的新型操作系统,能够支持Windows、Mac、Linux三大系统,并具有直连电脑的功能。它允许用户在指定文件夹下打开终端,一键将Word文件转换为PDF格式,甚至可以创建一个全新的番茄钟应用。此外,Open Interpreter还能够绕过OpenAI官方版的诸多不便之处,例如消息发送限制、Python包安装限制、文件上传限制等。该系统的首次运行需要输入OpenAI API Key或者选择免费的Code-Llama版本,并且会自动下载对应版本的Hugging Face模型。Open Interpreter的开发者Killian是一个有着教育背景的AI代理人公司创始人,他的目标是将Open Interpreter开发成一个完整的小说操作系统。
云从科技发布从容大模型,与ChatGPT对比中考真题答题澎湃新闻2023-05-18 15:52
AI与地理

云从科技发布从容大模型,与ChatGPT对比中考真题答题澎湃新闻2023-05-18 15:52

·人工智能发展趋势中,首先突破的是人工智能的单点技术,2015年最重要的单点技术是人脸识别,但在单点技术解决需求的时代,市场空间相对有限。人工智能第二浪是多点技术闭环,探索用AI真正改变产业和生活,但每个场景海量研发,投入产出比不平衡。在AI的第三浪,内容和交互革命,实现流量重构,技术平台化、标准化,边际成本基本为0,这个时刻就是AI进入大模型时代,AI开始像人一样思考和工作。 从容大模型写作文。5月18日,人工智能平台公司云从科技(688327)在广州发布从容大模型,展示从容大模型的对话、编程、阅读、中考真题答题等基础能力。 从容大模型目前处于内测阶段,现场演示环节中,对话展示了中文作文写作、英文招领启事写作、中英文翻译等能力。长文档阅读可完成内容概括,根据书籍内容进行人机互动,展示跨模态能力。 从容大模型与ChatGPT答2022年广东省中考历史真题。 从容大模型与ChatGPT答2016年甘肃省兰州市中考地理真题。在中考客观题答题环节,针对2022年广东省中考历史真题、2022年四川省德阳市中考生物真题、2016年甘肃省兰州市中考地理真题,从容大模型与ChatGPT同时答题,对比答题速度和正确率。演示结果显示,从容大模型答题速度相对更快,错误率相对较高。对300道题目的答题结果显示,云从从容大模型正确率71%,ChatGPT正确率73.34%,GPT4.0正确率86.34%。云从科技创始人周曦表示,目前GPT4.0的水平明显高于其他大模型,云从科技在大模型方面要走的路还很长,值得学习的内容很多。 从容大模型、ChatGPT、GPT4.0答题正确率。“没有强大的基础大模型,直接去做行业大模型不具有长期持续的生命力。”周曦表示。基于从容基础大模型,云从科技与政务、制造、金融、游戏等领域协作构建行业大模型。在数字政府领域,从容大模型的基层治理场景应用包括面向民众服务的一语智办、面向应用开发者的编程助手、面向城运治理中心的融合指挥、面向网格队伍的智治精灵。例如城运指挥大屏AI精灵,通过智慧蓉城天府新区运行中心演示了城市游玩建议等能力。 在智能制造领域,利用大模型构建智能维修伴随系统,推进维修计划科学合理。维修前对设备精准判断,根据图文视频、此前的维修要点等预习;维修过程中完成监管督导,判断维修是否存在遗漏;维修工单关闭后进行维修检测记录,包括生成图文视频维修记录、复盘本次维修,为下次维修提供支持。目前云从科技与中国检验认证(集团)有限公司共建数字质量大模型。 在智慧金融领域,云从科技表示,从容大模型将银行海量数据资源转化为有价值的信息,突破专业知识供给瓶颈,提升银行在普惠金融、银行运营能力、服务实体经济方面的能力。比如在支持普惠金融方面,大模型是入口,简约化智慧网点、线上APP等渠道;数智营销对理财等产品的营销活动和内容实现个性化触达;智能客服可问答、完成业务,满足合规要求。 在C端业务方面,大麦数字人直播平台探索一站式自助直播解决方案,设置互动问答库应对粉丝提问,主播可挑选话术风格。 云从科技创始人周曦谈AI发展趋势。“大约10年前,深度学习的突破带来了人工智能的突破。2016年,围棋人工智能程序AlphaGo战胜围棋世界冠军李世石,全世界掀起新的AI热潮。”周曦表示,人工智能的发展趋势中,首先突破的是人工智能的单点技术,比如2015年最重要的单点技术是人脸识别,百家争鸣不断竞争形成了“AI四小龙”(商汤科技、云从科技、旷视科技、依图科技),但在单点技术解决需求的时代,市场空间相对有限。人工智能第二浪是多点技术闭环,解决更多需求,探索用AI真正改变产业和生活。但带来的问题是不够标准化,每个场景需要海量研发,导致AI公司大量投入,但投入产出比不平衡。 在AI的第三浪,内容和交互革命,实现流量重构,“技术平台化、标准化,边际成本基本为0。一个统一的核心技术底座大平台能够快速改变海量场景和海量应用,原有的场景和产业的内容、交互方式会全面变革。”周曦表示,这个时刻就是AI进入大模型时代,AI开始像人一样思考和工作,大模型时代的交互方式总体有问答、伴随和托管三种类型,内容变革上带来了生成式AI。“像人一样思考和工作的AI,真正做到知行合一,总体来讲有三个关键步骤:一是物理世界数字化,真正把物理世界和数字世界打通。二是知识找人,知识能够精准为每个人在合适时间服务。三是能陪伴执行,不能只是纸上谈兵的系统,而是能够方便快捷地为人类提供最好的服务。”他表示,因此首先要构造一个像人一样思考和工作的操作系统,而从容大模型是操作系统能力板块的重要一环。 (本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP) 举报/反馈