ChatGPT App重大进化!能看能听还会说,多模态模型细节同时公布量子位2023-09-26 10:22北京量子位2023-09-26 10:22北京
AI与地理

ChatGPT App重大进化!能看能听还会说,多模态模型细节同时公布量子位2023-09-26 10:22北京量子位2023-09-26 10:22北京

梦晨 发自 凹非寺量子位 | 公众号 QbitAI OpenAI连发两则重磅消息,首先ChatGPT可以看、听、说了。 新版ChatGPT开启一种更直观的交互方式,可以向AI展示正在谈论的内容。 比如拍一张照片,询问如何调整自行车座椅高度。 官方还给出另一个实用场景思路:打开冰箱拍一张照片,询问AI晚餐可以吃什么,并生成完整菜谱。 更新将在接下来的两周内向ChatGPT Plus订阅用户和企业版用户推出,iOS和安卓都支持。 与此同时,多模态版GPT-4V模型更多细节也一并放出。 其中最令人惊讶的是,多模态版早在2022年3月就训练完了…… 看到这里,有网友灵魂发问:有多少创业公司在刚刚5分钟之内死掉了? 看听说皆备,全新交互方式 更新后的ChatGPT移动APP里,可以直接拍照上传,并针对照片中的内容提出问题。 比如“如何调整自行车座椅高度”,ChatGPT会给出详细步骤。 如果你完全不熟悉自行车结构也没关系,还可以圈出照片的一部分问ChatGPT“说的是这个吗?”。 就像在现实世界中用手给别人指一个东西一样。 不知道用什么工具,甚至可以把工具箱打开拍给ChatGPT,它不光能指出需要的工具在左边,连标签上的文字也能看懂。 提前得到使用资格的用户也分享了一些测试结果。 可以分析自动化工作流程图。 但是没有认出一张剧照具体出自哪部电影。 △认出的朋友欢迎在评论区回复 语音部分的演示还是上周DALL·E 3演示的联动彩蛋。 让ChatGPT把5岁小朋友幻想中的“超级向日葵刺猬”讲成一个完整的睡前故事。 △DALL·E3演示 ChatGPT这次讲的故事文字摘录如下: 过程中更具体的多轮语音交互细节,以及语音试听可参考视频。 多模态GPT-4V能力大揭秘 结合所有公布的视频演示与GPT-4V System Card中的内容,手快的网友已经总结出GPT-4V的视觉能力大揭秘。 物体检测:GPT-4V可以检测和识别图像中的常见物体,如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。文本识别:该模型具有光学字符识别 (OCR) 功能,可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。人脸识别:GPT-4V可以定位并识别图像中的人脸。它具有一定的能力,可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。验证码解决:在解决基于文本和图像的验证码时,GPT-4V显示出了视觉推理能力。这表明该模型具有高级解谜能力。地理定位:GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力,这证明模型吸收了关于现实世界的知识,但也代表有泄露隐私的风险。复杂图像:该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。同时也总结了GPT-4V目前的局限性。 空间关系:模型可能很难理解图像中对象的精确空间布局和位置。它可能无法正确传达对象之间的相对位置。对象重叠:当图像中的对象严重重叠时,GPT-4V 有时无法区分一个对象的结束位置和下一个对象的开始位置。它可以将不同的对象混合在一起。背景/前景:模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。遮挡:当图像中某些对象被其他对象部分遮挡或遮挡时,GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。细节:模型经常会错过或误解非常小的物体、文本或图像中的复杂细节,从而导致错误的关系描述。上下文推理:GPT-4V缺乏强大的视觉推理能力来深入分析图像的上下文并描述对象之间的隐式关系。置信度:模型可能会错误地描述对象关系,与图像内容不符。同时System...
OpenAI悄然升级ChatGPT:看、听、说,多模态争议的未来来了
AI与物理

OpenAI悄然升级ChatGPT:看、听、说,多模态争议的未来来了

OpenAI宣布ChatGPT已具备看、听、说三种能力,这是GPT-4大型语言模型最大的一次功能更新。随着生成式AI竞赛进入多模态阶段,各科技公司纷纷推出新产品和功能,以人工智能技术打破传统搜索引擎和聊天机器人的局限性,为用户提供更丰富和精准的交互体验。
GPT-4V:OpenAI’sVisionforaMultimodalAIWorld
AI与化学

GPT-4V:OpenAI’sVisionforaMultimodalAIWorld

本文介绍了OpenAI发布的旗舰文本生成人工智能模型GPT-4的多模态性,尽管该模型能处理多种任务,但仍存在一些问题和局限性,尤其是在图像分析方面。OpenAI已采取一系列保障措施防止其被滥用或泄露个人隐私,但仍需继续改进和完善。
小K播早报|ChatGPT可通过必应进行网络搜索 Meta发布Quest 3头显及AI聊天机器人科创板日报2023-09-28 08:21科创板日报2023-09-28 08:21
AI与化学

小K播早报|ChatGPT可通过必应进行网络搜索 Meta发布Quest 3头显及AI聊天机器人科创板日报2023-09-28 08:21科创板日报2023-09-28 08:21

《科创板日报》9月28日讯 ,今日科创板早报主要内容有:杉杉股份:拟收购LG化学旗下在中国大陆、韩国及越南的SP业务及相关资产;美光科技下一财季每股亏损预测高于预期;瀚川智能董事长提议回购公司股份,回购资金总额为5000万元-1亿元。 《科创板日报》主播小K为您播报。 市场动态 习近平:要进一步激发进口潜力、放宽市场准入、推动多边和双边合作深入发展 增强对外资的吸引力 中共中央政治局9月27日下午就世界贸易组织规则与世界贸易组织改革进行第八次集体学习。中共中央总书记习近平在主持学习时强调,要更加主动对接高标准国际经贸规则,稳步扩大规则、规制、管理、标准等制度型开放,加快打造对外开放新高地,建设更高水平开放型经济新体制,加快构建新发展格局。要积极营造市场化、法治化、国际化一流营商环境,以推动加入《全面与进步跨太平洋伙伴关系协定》和《数字经济伙伴关系协定》为契机,进一步激发进口潜力、放宽市场准入、推动多边和双边合作深入发展,增强对外资的吸引力。要加快建设贸易强国,升级货物贸易,创新服务贸易,发展数字贸易,以数字化绿色化为方向,进一步提升国际分工地位,向全球价值链中高端迈进。同时,要注意维护国家经济安全。 美股热门中概股普涨 法拉第未来跌超44%总市值跌破3000万美元 热门中概股普涨,纳斯达克中国金龙指数涨0.80%。唯品会涨超4%,小鹏汽车涨超2%,拼多多、哔哩哔哩涨超1%,微博、蔚来、理想汽车、腾讯音乐、百度、阿里巴巴、满帮、富途控股小幅上涨。网易、爱奇艺跌超1%,京东小幅下跌。法拉第未来跌超44%,续创新低,总市值跌破3000万美元。 ChatGPT再迎重磅升级:终于能“联网”了 不再局限于旧数据 当地时间周三(9月27日),OpenAI在X(前身为推特)上宣布,其聊天机器人产品ChatGPT可以通过微软的必应搜索引擎进行网络搜索,将不再局限于2021年9月之前的数据。OpenAI称:“现在ChatGPT Plus和Enterprise(企业版) 用户可以使用浏览功能,将很快扩展到所有用户。要启用,请在GPT-4下的选择器中选择‘使用必应浏览’(Browse with Bing)。” Meta正式推出Quest 3头显 并发布AI聊天机器人 当地时间周三(9月27日),Meta在其Connect开发者大会上正式发布了备受期待的新一代VR头显Quest 3。Meta在今年6月初就预告了这款设备。Quest 3的起售价为499美元,比上一代产品贵了200美元,将于周三开始预订,10月10日发货。据介绍,Quest 3配备了高通骁龙 XR2 Gen 2芯片,该芯片基于Arm架构,在功耗和能耗方面更接近移动处理器,而不是PC处理器。Quest 3的处理能力是Quest 2的两倍,改进了图形渲染,操作更流畅,加载应用程序时速度更快。 Meta首席执行官马克•扎克伯格还介绍了面向消费者的生成式人工智能(AI)产品,包括一款既能生成文本回复,又生成逼真图像的聊天机器人,名为Meta AI。Meta AI基于强大的Llama 2大型语言模型定制,Llama 2于今年7月发布,用于公共商业用途。扎克伯格称,这款聊天机器人将通过与微软必应搜索引擎的合作,获得实时信息。 美光科技下一财季每股亏损预测高于预期 美光科技第四财季经调整营收40.1亿美元,分析师预期39.3亿美元;预计第一季度经调整营收42亿美元至46亿美元,分析师预期42.1亿美元;第四财季营业现金流2.49亿美元,分析师预期11.7亿美元;第四财季调整后每股亏损1.07美元,分析师预期每股亏损1.18美元;第四财季调整后运营亏损12.1亿美元,分析师预期亏损12.5亿美元;预计第一财季每股亏损1.00-1.14美元,分析师预期亏损0.96美元;预计第一财季毛利润率为-2%至-6%,分析师预期为+0.66%。 公司面面观 杉杉股份:拟收购LG化学旗下在中国大陆、韩国及越南的SP业务及相关资产 杉杉股份公告,下属子公司杉金苏州及其全资子公司杉金广州拟以人民币14.07亿元的初始转让价格收购LG化学旗下在中国大陆、韩国及越南的SP业务及相关资产(“SP业务”指(1)用于OLED显示屏的特殊偏光片产品;及(2)车用LCD业务中的及可在苹果公司和/或其关联方的产品上或者供之使用的LCD偏光片产品)。 爱柯迪:新能源汽车零部件铝合金产品在手订单金额超过250亿元 爱柯迪公告,9月初,依据公司已获得的项目定点函或与客户已签订项目开发协议等资料,公司新能源汽车零部件铝合金产品在手订单金额超过250亿元,该等获取订单主要集中在未来4~7年内实现销售收入。 双环传动:前三季度净利润预增41.29%-46.18% 双环传动公布2023年前三季度业绩预告,2023年前三季度归属于上市公司股东的净利润盈利57,860万元–59,860万元,比上年同期增长41.29%-46.18%;扣除非经常性损益后的净利润盈利54,060万元–56,060万元,比上年同期增长42.73%-48.01%;基本每股收益盈利0.68元/股–0.70元/股。 上声电子:预计前三季度扣非归母净利润同比增96.97% 上声电子公告,预计2023年第三季度公司营业收入6亿元,较二季度环比增长17.42%,同比增长25%;实现扣非归母净利润约3500万元,同比增长60.09%。2023年前三季度,公司实现营业收入约15.6亿元,同比增长约30.22%,实现扣非归母净利润约1.06亿元,较上年同期增长96.97%。 百克生物:预计第三季度归母净利润同比增长35.99%到72.88%...