文章主题:自然语言处理, 人工智能, 科大讯飞, 大模型
在本篇文章中,我们特别邀请到了全天候科技的作者于惠如同学,由罗丽娟编辑进行审核与校对,创业邦得到对方的允许, exclusive 发布这篇文章。
在6月9日的突破性开放性问题回答中,我们的多轮对话能力得到了进一步提高;而在8月15日,我们在代码能力方面也取得了重大进展,将多模态交互能力正式开放给客户。到了10月24日,我们在大模型领域与ChatGPT进行了对标,尤其是在中文能力方面,我们已经超越了前者,而在英文能力上,我们的表现则与ChatGPT相当。
“认知大模型成为通用人工智能的曙光,科大讯飞有信心实现‘智能涌现’。”
在5月6日的科大讯飞星火认知大模型发布会上,科大讯飞董事长刘庆峰与科大讯飞研究院院长刘聪亲自动手,现场展示了讯飞星火在七个主要维度的核心功能。这七个维度包括:多风格多任务长文本生成、语言理解、泛领域开放式知识问答、情境式思维链逻辑推理、多题型可解析数学、多功能多语言代码,以及多模态输入和表达等。
在讯飞星火认知大模型正式亮相之际,科大讯飞亦宣布推出了一系列基于此大模型研发的教育、办公、汽车及数字员工等多元化产品。
星火认知大模型的旅程始于2022年的12月。在那个时期,我国知名的人工智能公司科大讯飞启动了一项重大研究计划,即“1 N”大模型技术攻关项目。在这个项目中,“1”代表了通用认知智能大模型算法研发以及高效训练方案底座平台的打造;“N”则象征着这些大模型将在教育、办公、汽车以及人机交互等多个领域得到实际应用。
在当今的文本生成、知识问答以及数学能力领域,我国的讯飞星火认知大模型已经超越了 ChatGPT 的表现。这一成果在最近的发布会上得到了确认,该发布会由我们的领导刘庆峰亲自发布。
在同一时间,刘庆峰也展示了讯飞星火的迭代计划以及各个阶段的明确目标。首先,在6月9日,我们将重点突破开放性问答,例如实时问答的能力;同时,多轮对话能力也将得到进一步提升;此外,数学能力也将迈上新的台阶。接下来,在8月15日,我们将着重提升代码能力,并正式将多模态交互能力开放给客户。最后,在10月24日,我们将与通用大模型领域的领导者ChatGPT展开竞争,其中在中文方面,我们的表现将超过对方;而在英文方面,我们的表现将与对方相当。
此外,据刘庆峰透露,科大讯飞还将在今年推出医疗行业大模型。
在一场盛大的发布会上,刘庆峰先生运用“最强大脑”、“超越ChatGPT”以及“遥遥领先”等词汇,充分展示了讯飞星火认知大模型所具备的卓越能力。然而,他也坦诚地指出,尽管讯飞星火在某些方面已经取得了显著的优势,但仍存在一些亟待解决的问题。例如,在面对新知识时,它难以及时进行更新;在事实类问答环节中,可能会出现“张冠李戴”的情况;而在史实和传统典籍的处理上,可能会出现“编造情节”等问题。
目前,星火认知大模型已对外开放测试。
01 现场实测七大核心能力与百度文心一言、阿里通议千问不同,讯飞星火没有在发布会上使用提前录好的demo版本,而是在现场实测了其七大核心能力。
从现场演示效果来看,星火认知大模型基本能够流畅完成交付的各项任务。另外,讯飞星火体现了科大讯飞的一贯强项——语音能力,它可以通过语音转文字进行问答,这也是其优势所在。
演示中,刘聪让星火认知大模型写邮件、做方案、写新闻通稿、生成英文宣传文案等文本生成功能,讯飞星火均流畅地完成了任务。
现场演示的讯飞星火的语言理解能力也在线,它理解了特定的句子和场景含义,随着问题的变化,也调整了自己的答案
在数学能力中,除了常规计算、几何、情景应用等,讯飞星火解答了复杂的计算题答案。在刘庆峰看来,数理能力一定程度代表了一个大模型的聪明程度。“讯飞星火大模型不仅在国内系统中遥遥领先,也超过了ChatGPT。”
此外,刘聪还展示了大模型面向泛领域开放式知识问答能力、逻辑推理能力与代码能力。在多模态能力方面,星火大模型能够根据关键词句生成语音、图片、视频等素材,并可生成虚拟人进行视频展示。
不过,据官方介绍,讯飞星火的多模态能力目前还在测试中,最迟8月会提供给VIP客户使用。
02 打通“大模型+产品”闭环生态讯飞星火认知大模型发布的当天,科大讯飞还同时发布了基于该大模型的教育、办公、汽车和数字员工等多个领域相关产品。
以汽车为例,讯飞火星认知大模型与智慧座舱的结合,可以实现车内跨业务、跨场景人车自由交流。基于大模型的智能座舱将更自由、拟人化、更懂汽车、更开放。
在学习机中,新增talktalk功能,实现中英文对话,存量学习机可更新迭代。办公本和录音笔中,新增语篇规整、要点总结、一键成稿,存量产品也可更新使用。
基于自然语言生成业务流程和RPA,在“大模型+数字员工”应用场景,可以帮助企业员工完成大量重复性工作。
现场以公司招聘事项为例,输入指令后,系统即可自动按照事先设计的RPA脚本,操作计算机中的相应软件,实现业务流程的自动化操作并输出结果,并进行数据分析。
刘庆峰透露,上述领域外,讯飞星火认知大模型还将赋能包括医疗、城市、政法、工业等在内的更多行业,满足更多专业领域的需求,向更广阔的产业领域延伸。
据了解,首批来自36个行业的3000余家企业开发者将接入星火大模型。
03 测试体验星火大模型“成色”究竟如何?全天候科技亲测了多个场景下的问题,不妨一起来看一看它回答的如何。
我们先让星火大模型介绍了自己和竞品。
很明显,简单介绍没有问题,但当主语更复杂,需要理解时,它的理解能力“不在线”。
我们又让讯飞星火展现了文字创作能力——根据要求写一首诗。
这首诗基本涵盖了端午节的要素:糯米、龙舟、艾草,还拓展了龙舟、艾草等元素的使用场景,也表达了对生活的美好祝愿。但整体而言,与其说是一首诗,它更像是一首缺少押韵、对仗、与美感的顺口溜。
随后,全天候科技针对一些时下正流行的网络“热梗”进行提问,看其是否有紧跟热点的能力。
然而,对于“特种兵”式旅游这个网络热梗,讯飞星火知道一点,但知道的不多。不过,它的“态度”很好,当我们提出错误,它能认识到自己的错误,并且道歉。
在测试过程中,全天候科技发现,讯飞星火的部分语料库并未更新至最新事件,对一些实事仍然给出错误答案。比如,当我们问“北京冬奥会自由式滑雪女子U型场地冠军是谁”时,它给出的答案是:法国选手特兰斯·勒贝克 (TraceLeBerque)。不过,当我们给出正确答案后,它又立马承认自己的错误并道歉。
在数学推理能力方面,我们请讯飞星火做了几道数学题。对于第一个题,讯飞星火不仅给出了正确答案,还做了延伸。而对于第二个题,它给出了详细的解题步骤及正确答案。可以看出,它的简单数学推理能力过关。
在多模态生成方面,讯飞星火的表现也不够完美。
此前已经推出的百度文心一言、阿里通义千问等大模型均具备图片生成的能力。当我们输入“科大讯飞要开大模型发布会,请生成一张海报”时, 讯飞星火认知大模型告诉我们自己无法生成图片,但是它还是给我们提供了一些信息和建议。
除了文字,讯飞星火具备在答案中融入emoji表情包能力,当我们让它用emoji表情包介绍大模型发布会时,它给出了以下答案。
最后,讯飞火星究竟如何看待自己的能力?
我们抛出了刘庆峰对其已“超越ChatGPT”的夸赞,并让它证明自己。它没有承认,并已学会了“打太极”。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系
自然语言处理, 人工智能, 科大讯飞, 大模型
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!