是否超越ChatGPT?科大讯飞星火大模型升级时间表曝光
AI与数学

是否超越ChatGPT?科大讯飞星火大模型升级时间表曝光

IT之家 5 月 17 日消息,科大讯飞在互动平台表示,针对大模型普遍存在的问题,星火大模型有明确的升级迭代里程碑计划。 具体来说,6 月 9 日,突破开放式问答,升级多轮对话能力,数学能力还会再上一个新的台阶;8 月 15 日,升级代码能力,让开发者、合作伙伴高效方便使用,讯飞内部已经在使用代码生成能力,多模态交互能力正式开放给客户;10 月 24 日,通过科学、系统的评测方法在通用认知大模型能力上能够对标 chatGPT(即 GPT-3.5),在中文上超越,在英文上达到跟它相当的水平。 科大讯飞还称,据其了解,截止目前,国内大模型厂商中提出追赶 chatGPT 明确时间表的只有科大讯飞一家。 IT之家此前报道,本月 11 日科大讯飞称,网上有谣言说讯飞星火大模型“套壳 OpenAI 的 ChatGPT”既不符合事实,也不符合逻辑。科大讯飞表示,如果是套壳 ChatGPT,就不可能出现讯飞星火大模型的响应速度比 ChatGPT 还快;更不会出现讯飞星火大模型在文本生成、知识问答、数学能力等方面的结果均优于 ChatGPT 的情况。 2023 年 5 月 6 日,科大讯飞正式发布星火认知大模型,具有 7 大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。 举报/反馈
ChatGPT与MOSS:科技巨头的预言还是现实挑战?
AI与数学

ChatGPT与MOSS:科技巨头的预言还是现实挑战?

南方财经全媒体 见习记者马嘉璐 广州报道 《流浪地球2》在今年春节档收获了大批粉丝,电影中背叛并攻击人类的人工智能MOSS也成为网络热议话题。在5月18日举办的2023CCF(中国计算机学会)青年精英大会“科幻影视与科技的破圈融合”分论坛直播上,来自《流浪地球》科学顾问团队的中科院计算所研究员王元卓详细比较了电影中的强人工智能MOSS和在现实生活中爆火的ChatGPT,表示ChatGPT和MOSS的产生过程,“走的路线是很相似的。” 王元卓透露,电影中的数字生命“图丫丫”,原本有两种呈现方式。第一种是将人的脑部信息采集并记录下来,再在计算机中不断迭代;第二种是设计一种可以“发育”的程序,从零开始像胚胎细胞那样不断成长。最终,电影选择了第一种方式。 在电影中承载数字生命的计算机,就是550系列量子计算机。2058年,研发团队推出最新成果550W——人类历史上算力最强的智能量子计算机。基于550W强大的算力和接入的数字生命“催化剂”,550W演化出具有自主意识的强人工智能MOSS。 王元卓解释道,人工智能有三个必备条件,数据、算力和算法。从550A到550W,超级计算机性能大大提升,可以运行大规模数据运算,促使人工智能的“涌现”。此外,科学顾问团队为MOSS设计了“人在回路”的学习模型,即人在关键时刻对MOSS“帮一把”,可以使其产生质的飞跃。数字生命的接入,就起到了“帮一把”的作用。初级的MOSS可以收集资料,代替工作人员进行面试,通过对话任务做决策;觉醒后的MOOS可以和人类自如对话,演算出数字生命的多种可能性;终极MOSS能够自我迭代、自我更新,迅速推演自然事件的结果并作出最理智的选择。 回到现实,ChatGPT是一个预训练大语言模型。王元卓认为,ChatGPT背后的训练数据量在增加,模型规模在增加,所消耗的算力也在增加,“在数据、算法和算力的支撑下,通过不断训练大模型产生人工智能,这一点ChatGPT和MOSS走的路线是很相似的。” 论坛上,英特尔DCAI集团首席工程师何万青也表示,科幻在某种程度上是一种“自我实现的预言”。他举例道,1966年的 电影《星际迷航》中就出现了手机的雏形;1977年电影《魔种 Demon Seed》曾描绘过智能家居;1990年《全面回忆》想象过自动驾驶;而太空旅行早就在1902年的科幻作品中出现。何万青认为,目前存在的对ChatGPT的恐慌更多是来源于想象而不是现实,基于前述“自我实现”的特点,是把人工智能当作智慧伙伴去合作、分享,还是把人工智能摆在对立面去互相控制,将会是人类不得不回答的社会问题。 已经有不少人尝试使用ChatGPT写论文、写代码、写新闻,但王元卓观察到,目前来说,ChatGPT功能强大但并不完美。比如,有时它会出现“一本正经胡说八道”的情况,犯事实性错误;也无法完成写程序需要的需求分析、框架设计任务。此外,ChatGPT不擅长数学推理,也无法根据用户背景生成个性化答案。不过,王元卓也提醒到,在数学方面ChatGPT提升迅速。“今年1月时它还不会解二元一次方程,3月时就已经可以正确且逻辑清晰地解决鸡兔同笼问题。” “当幻想照进现实,有很多偶然性,但也存在必然规律。”王元卓总结自己近年来做科普工作的经验,表示科技的发展不是匀速的、线性的,而是存在阶跃的、爆发式的,它源自人类对自然规律的认识,对大胆想象的求证和对未知领域的探索。科幻源于科技发展的趋势和突破,以及这种发展对人类生活产生的冲击,既有科学内容,“也在预示未来。” 更多内容请下载21财经APP
科大讯飞刘庆峰:讯飞星火的语言理解能力离ChatGPT仅一步之遥|最前线
AI与数学

科大讯飞刘庆峰:讯飞星火的语言理解能力离ChatGPT仅一步之遥|最前线

5月18日,第七届世界智能大会在天津开幕。会议中,生成式AI再一次成为焦点。36氪获悉,在大会开幕式暨创新发展高峰会上,科大讯飞董事长刘庆峰分享了科大讯飞对当下人工智能的思考和实践,并展示讯飞星火认知大模型的能力及行业应用落地情况。 在刘庆峰眼中,抓住通用人工智能的历史机遇有三个关键点。“首先,必须要在自主可控的平台上,第二,必须要同时做中文和英文,不能只学习中国的智慧,还要向世界学习。第三,在‘硬碰硬’的科技对比上,不仅要学习,还要想办法赶超。”他总结。 本月初,科大讯飞发布了讯飞星火认知大模型。会议中,刘庆峰同样介绍了这一大模型的研发契机。他表示,OpenAI发布的ChatGPT给了团队很大触动,经快速验证后发现,科大讯飞有成建制的力量和完整的算法储备,于是在去年12月15日正式启动了“1+N”认知智能大模型的专项攻关。 “1就是通用的认知大模型,直接对标ChatGPT, N就是各个专用系统,比如教育、医疗、汽车等领域。”刘庆峰解释。 而面对如今生成式AI、大模型的问题,他也直言,目前纯大模型技术还可能出现新知识难以及时更新,事实类问答容易“张冠李戴”,史实、传统典籍等容易“编造情节”等错误。但刘庆峰预计,这些问题在今年会有明显的改进。在具体实践方式上,他认为“大模型本身通过参数记忆和训练,不能从根本上解决,只能用一个办法,调用各种插件来解决可靠性问题。” 整体来看,刘庆峰认为目前讯飞星火认知大模型在文本生成、语言理解和数学能力方面已处于国内领先水平,尤其是数学能力方面已超过ChatGPT。另在语言理解能力方面,讯飞星火认知大模型不仅在国内遥遥领先,和ChatGPT也仅有一步之遥,“100分相比,我们只差两分,而且我们在今年10月份之前就会超过。”刘庆峰说。 以下是刘庆峰演讲全文,供读者参考: 各位领导,各位来宾,非常高兴能够有机会在这里跟大家分享,我们对于如何抢抓通用人工智能历史机遇的一些思考和实践。 认知大模型正成为通用人工智能全新的曙光。通过对海量的数据进行高质量的清洗,再通过统一的神经网络的大模型进行记忆和训练(这个模型通常是上千亿的浮点参数的),再经过人机协作的强化学习等一系列创新方法,就可以实现在通用领域的智慧涌现,可以在一定意义上实现像人类一样的触类旁通的能力。因此,它可以带来不仅仅是内容的生产和分发方式的全新变化、人机交互的根本性变革,也会对我们的科研、办公、工业、互联网带来全新的颠覆和全新的机遇。传统意义上靠堆时长和人力的商业模式,在未来的两三年之内将被彻底的改变。所以有人说它在历史上的战略意义相当于PC和互联网的诞生,我觉得这样的论断是毫不夸张的。 刚刚主持人也说了,4月28日中央政治局专门提出我们要重视通用人工智能的发展,这次通用人工智能从ChatGPT发布的时候给大家分享了48个最主要的任务,科大讯飞对我们人工智能开放平台上400多万开发者团队在通用人工智能相关能力的分析,我们给出了当前通用人工智能的7个底层维度的能力,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态的七大能力。 科大讯飞在2011年就承建了语音及语言信息处理国家工程研究中心的这样一个任务,其实这一次的认知大模型一定意义上也是对话式通用人工智能,在这方面的语言理解能力、文本生成能力等等,都是跟语音和语言直接相关的,包括大家在两侧看到的语音的转写和翻译能力,现在都已经超过了专业人士。 除了这些进展之外,我们还承担了科技部的认知智能国家重点实验室的重任,所以在此基础上,我们让机器在医疗考试——国家执业医师资格考试笔试中超过了96.3%的参加考试的人类医生,已经可以看1300多种病。在高考和语文作文、四六级英语作文、雅思英语作文中,机器改作文已经比一般老师还要更准。在国际上权威的自然语言理解的比赛——斯坦福大学牵头的SQuAD的比赛(是英文的阅读理解),我们在全球首次超过了人类平均水平。去年又在艾伦研究院组织的Open Book QA的科学常识推理挑战赛上,超过了人类水平。在此基础上,我们看到Open AI发布的ChatGPT给了我们很大的触动和惊喜。经过快速验证之后,我们觉得科大讯飞有成建制的力量、有完整的算法储备,所以去年的12月15号就正式启动了1+N的认知智能大模型的专项攻关。 1就是通用的认知大模型,直接对标ChatGPT, N就是刚才万钢主席专门说到的,在教育、在医疗、在汽车等等方面的各个专用系统。 那么当我们启动研究的时候,我们就想,通用的人工认知智能它涉及到众多的领域,我们要向open AI致敬和学习,同时要快速赶超并努力追赶超越,要有一套科学的成体系的评测方法。所以我们以认知智能全国重点实验室,根据这七大维度提出来了一系列的分解方法,又跟中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨,形成了七大类481个细分任务的关键的测试方法。有这个方法,既可以评测我们自己技术的进步,也可以看到下一步科研的方向,同时可以对各个应用在各个领域里形成指导。 在今年的5月6日,我们就按照这7个维度进行了发布。我们从第一天做就是中英文同步进行的,将来还要做更多的多语种,这个是一个深层次。当然大家可以看到更多的例子,包括比如说对语言理解能力,像这样一个很有意思的男子汉大丈夫,既要宁死不屈,常言又说还需要能屈能伸,在各种场景下它怎么理解?这种理解当然不是一个单点理解,同类的深度理解它全部都具备了这样的能力。这个理解在底层方面来说,对于句法和字词的理解也可以抠到非常精细的维度。 大家今天说深层次AI或者通用人工智能要具备可解释性的底层逻辑,再包括像医疗,刚才万钢主席已经说到了,我们现在机器已经看了5亿多人次的病人,所以可以具备很多的通用的知识。这次通用人工智能,我们没有做专门的医疗方向,因为它要更严肃的才能推给每个家庭。在今年之内,10月份之前我们就会推出医疗专用的认知模型,成为每个人的健康助手和每个医生的诊疗助理。 另外像数学能力、编程能力等等,还有一些当时我们发布会现场大家脑洞大概提的问题,比如怎么把40平米的房间装修成70平米的感觉、到天津三天的旅游怎么制定一个计划等等,那么这些其实都需要这七个维度能力的贯穿。 另外还有多模态,它不光能够生成相关的文字,还可以用语音合成朗读,可以有人物形象。我们现在看到它七个维度的各种能力,除了多模态我们在8月份之前提供,其他六个能力全部都能扫码体验了。 我还想说的是,我们经常会说大模型带来的优势、很多令人惊喜的表现,但是它也有待攻克的缺陷,比如说因为它都是用历史数据训练的,你要问它今年五一情况它就不知道了,对于这些实时的新闻信息它回答不了。可以看到不光讯飞星火,ChatGPT也回答不了,包括对一些事实类问题的张冠李戴,传统典籍的编造情节等等,这个怎么解决?大模型本身通过参数记忆和训练,不能从根本上解决,只能用一个办法,调用各种插件来解决这些可靠性,就必须要有机器,我们的大模型具有超强的语言理解能力。 我很高兴的告诉大家,现在讯飞星火的语言理解能力不仅在国内是遥遥领先的,我们跟ChatGPT仅仅一步之遥,100分相比,我们只差两分,我们在今年10月份之前就会超过。 抢抓认知通用人工智能的机遇,我觉得有几个基本要素。 第一个必须要在自主可控的平台上,我们在天津有非常多的合作伙伴,还有像曙光、华为、寒武纪都在科大讯飞有特战队。第二,必须是第一天就要同时做英文和中文,我们不可能只学习中国的智慧,要向全世界学习,所以中英文同步。我们5月6日这个版本中,不仅数学能力已经超过ChatGPT了,在文本生成中中文超过他,英文以5分为满分,ChatGPT是4.48分,我们已经4.29分。那么还有第三,大家在硬碰硬的科技对比上,不仅要学习,还要想办法赶超。数学能力,编程能力,都属于硬碰硬的能力。现在数学我们已经超过了,还在不断进步,编程现在数据比较少,正在学习,8月份就会对标ChatGPT,所以我们定了目标,10月24日跟ChatGPT相比要在中文中超越,英文中相当。 所以今天在这样一个通用人工智能上,我们也在我们的联合实验室(包括在科大在清华在很多学校),共同在做更前沿的源头技术创新(就像怀部长当年在863专家组一样),一定是要有追赶到超越、再有自己原创的系统性的推动计划。星火也在本次WIC展馆中展出,希望大家有时间去看。 另外关于大模型在各行业落地,我也有一个有趣的例子,大家可以扫码自己去试,比如说英语的全自由的开放式对话,可以选择任何主题。它的对话是完全开放的,每句话都是自动生成的,用语音合成读出来的。 它最大好处就是,任意一个主题选择,就像人一样随机的跟你开放式对答,根据你的回答它随时调整,用语音合成、语音识别和翻译形成了前所未有的虚拟的对话环境,就跟雅思考官跟你对话一样。 当然我们其实在一系列产品中已经有落地了,无论从学习机、办公本,还是我们的讯飞听见网站等等,现在有5000多万人用讯飞听见网站把录音丢过去以后转成文字,有了认知大模型的专业版,它不仅可以转成文字,我们直接告诉它要生成一个宣传文稿、还是广告文案,还是会议纪要、还是代办文件,一键自动生成,极大提升了我们现在的生产和生活效率。包括在汽车,在工业流程跟工业互联网的结合已经有很多场景了。 今天我们对400多万的讯飞开放平台开发者团队,有500多项人工智能能力都在赋能,这次星火大模型的通用人工智能会进一步既为这些开发者赋能,也会让创业者的门槛极大降低。他只要会写prompt,有创意和灵感,很多事情通用人工智能来帮他做了。 我们在天津正在打造北方声谷,现在也已经有了6万多的开发者团队,去年一年新增了35%以上,我们在滨海新区这个楼也有幸成了第一个税收亿元楼,税收过亿,现在整个产值也有100多亿,总共30亩的场地盖了楼,整个产值已经有170多亿了,所以应该说亩均产出也不错。 今天是第七届的世界智能大会,其实从第一届我们就参加对大会充满感情,期待在天津这一块热土之上,相信今天的星火一定可以在天津、在中国形成燎原之势,期待着跟大家精诚合作,人工智能也将因解决人类刚需而被更深刻地载入史册,谢谢大家。
实测ChatGPT插件真香用法!视频一键变脑图,高数作业轻松拿捏
AI与数学

实测ChatGPT插件真香用法!视频一键变脑图,高数作业轻松拿捏

梦晨 丰色 发自 凹非寺 量子位 | 公众号 QbitAI Sam Altman诚不我欺: ChatGPT插件和联网功能终于在这两天向尊贵的Plus用户全面开放了。 像之前预告的一样,联网可以直接获取2021年9月之后的消息,插件也安排了70多个,购物订餐订机票等日常功能应有尽有,更专业的数学、编程、检索文件等能力更上层楼。 像用iPhone一样使用ChatGPT,就是现在! (像我们编辑部,最心水的莫过于用webpilot插件让它去reddit等网站上找出“关于ChatGPT最热门的5个讨论”了。选题从此不慌~) 不过,在网友火速开启的一大波测试后,却出现了一些争议: 比如,联网时一旦某个链接打不开就容易卡住,体验不如新必应。 又比如第三方插件的质量参差不齐,以及GPT-4回答问题本来就慢,再调用插件就更慢了。 …… 桥豆麻袋,OpenAI这波,真的拉了吗? 随着测试范围扩大,大家体验逐渐深入,最新宝藏很快被挖掘出来: 多个插件联用,才是真正的魔法。 亲测:1+1>2 要使用联网和插件功能,首先要付费订阅ChatGPT Plus,然后在设置中打开这两个选项。 然后新建聊天,选择GPT-4模型,在下拉菜单里勾选上联网或是插件选项就能用了(只能二选一)。 可以安装任意数量的插件,但最多同时启用3个,何时调用什么插件是GPT-4自己决定的。 已知一个插件Video Insights可以总结视频的内容,另一个插件Show Me可以生成思维导图,把他们结合在一起会发生什么? 没错,就是一键把视频内容变成思维导图。 在网友的测试中,一条关于睡眠与噩梦的科普视频,就这样总结好了。 这样一来,至少可以有三种用法: 可以在看长视频之前,先大致了解一下内容,决定是否值得看带着思维导图去看知识类视频,理解更加深刻把AI总结好的内容存下来,留作笔记,日后想回顾也不用再看一遍视频了 在实际测试中,用中文去提问也是可以调用这些插件的,并且生成的脑图还可以在线编辑。 不过如果视频太长(测试中的是3小时),GPT-4会表示一次总结不完,请稍后再来查看。 等它的同时,不如还来试试还有哪些插件可以放一起联用。 比如……能做数学题的Wolfram+能读取文档的Link Reader,岂不是可以一键写作业了? 从某大学网站找点微积分练习题试试,还真可以! 不过这里还有一个小技巧,不要让它一次做完所有题。 因为GPT-4输出长度还是有限制的,可能把题读完这一条回复就结束了。 接下来每道题分开问就可以了,在Wolfram加持下,最终不光得到解题过程和答案,甚至还有示例图像。 随着收到更新的网友越来越多,更多插件的组合也被大伙儿发掘了出来。 比如有些任务需要精心设计的提示词AI才能表现好,反复尝试提示词也很耗时间。 有个插件Perfect Prompt可以自动完善提示词,那么再加上完成任务所需的插件一起,就可以在得到改好的提示词后继续执行任务了。...