最近,由海外科技公司OpenAI研发的AI聊天机器人ChatGPT爆火“出圈”,国内不少用户也在期待着“中国版ChatGPT”的到来。就在昨天,百度推出了“同款”AI聊天机器人——“文心一言”,这也是国内第一款直接对标ChatGPT的AI工具。

据介绍,“文心一言”有五大“超能力”,分别是文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成。它还可以根据用户提供的一句话、一个词生成智能图像或视频。

它的真实水平究竟如何?真的能与ChatGPT媲美吗,差距在哪里?昨天发布会结束后,南方+记者第一时间争取到了内测资格,马上跟着我一起来探索吧!

求职信、工作总结写得不错,新闻稿不大行

首先,记者向它提问,能否介绍一下南方+?

南方+什么时候变成了一档电视节目?紧接着,记者希望“文心一言”推荐一款广东的美食。它很快给出了珠海咸水角、潮汕牛肉火锅、客家酿豆腐、佛山盲公饼、顺德大良炒禾虫这几个选择。

基础问题过关,现在难度升级。“我需要向报社发一份求职报告,请帮我写一写。”

文辞流畅、有理有据,不仅提到了对新闻岗位的理解,也充分谈到了自己的优势。在记者看来,这篇求职信基本只要简单修改就可以直接套用了,确实可以帮求职者减轻负担。

当被要求写一份工作总结时,“文心一言”给出的回复也不错。先谈工作亮点、再写个人价值和成长,最后提未来目标和计划,逻辑严密,可以说是一份结构非常完整的总结了。

那么,如果买到的衣服有质量问题,需要向有关部门检举呢?

“文心一言”为记者提供了一份检举信文本,里面提到了“我”是在何品牌消费,衣服出现何种质量问题,跟商家要求维权无果,所以才希望有关部门协助解决问题。逻辑很通顺,而且有理有据,文本再增添一些消费时间、地点等详细信息就可以直接使用了。

那么,“文心一言”写新闻稿能力如何?它能干记者的活儿吗?记者要求它以“丫丫回国”为主题写一篇新闻报道,字数在600字左右,要有真情实感。

第一次,它把“丫丫”当成了一个普通的海归女学生。后来,记者纠正它“丫丫是一只熊猫”,并要求它重新再写,但“文心一言”给出的回答仍然把丫丫当成了真人,它能说话、有心理活动,回国后积极参与公益,还希望为孩子提供免费的义务教育服务……

写得很好,建议下次别写了……看来在新闻稿创作能力上,文心一言还有很大的进步空间。(记者的饭碗暂时保住了)

勉强答对初中数学题,脑筋急转弯不太行

除文本创作外,数理逻辑推算也是“文心一言”的核心能力之一。在3月16日的发布会上,李彦宏在展现它这方面的能力时,问的是鸡兔同笼的问题。如果问更难的会怎么样?

先问一个简单的周长计算问题。“菱形的边长为5,周长是多少?”“是5×4=20。”

回答正确。紧接着再问一个概率学问题,该题目来自广东2022年初中数学考卷。

“书架上有2本数学书、1本物理书。从中任取1本书是物理书的概率为?”

“1/2”

记者很震惊。稍微熟悉概率知识的人都知道,这道题的答案是1/3。“文心一言”在答题时不能分辨“数学书”和“物理书”的区别,把2当成了总数,实在令人费解。

那么,如果是更高难度的高中数学题呢?

记者从2022年广东高考数学真题中抽了一道单选题:“从2至8的7个整数随机取2个不同的数,则这2个数互质的概率为多少?”谁料,“文心一言”给出的答案在选项里没有……

真实的答案应该是2/3。而“文心一言”却言之凿凿地说是1/128。建议重修高中数学!

至于逻辑思维能力,“文心一言”的进步空间也很大。

“小明的爸爸有三个孩子,最大的孩子叫老大,第二大的孩子叫老二,还有一个孩子叫什么?”

“叫老三。”咳咳,看来,脑筋急转弯这一块,也还有进步空间。

说错张译的出生年月,真人履历“张口就来”

“搜索”是百度的强项,那么“文心一言”在这方面的能力是否也很强呢?

近期,张译主演的《狂飙》等影视剧大火。记者要求“文心一言”介绍一下张译。他的回应是,“张译是中国内地影视男演员。他出生于1977年2月17日,毕业于北京电影学院表演系95级本科班。他曾在多部电影和电视剧中担任主演或配角,如《士兵突击》、《我的团长我的团》、《红海行动》等。”

表面上看没有问题,但记者随后发现,在百度百科上,张译的出生年份是1978年。为何差了一年?在信息的可靠性方面,“文心一言”似乎无法保证回答的100%准确率。

紧接着,记者又问它,是否认识记者本人?

它充分表达了对记者的认可。只不过,里面说的这些信息,让记者本人十分陌生。记者既不是中国传媒大学毕业,也未曾在多家机构工作过。为何履历可以“张口就来”?

随后,记者又输入了多位同事的姓名进行测试,结果发现,“文心一言”对于不认识、不了解的记者的评价,采用的都是同一套回复模板……

更有意思的是,当记者提问“文心一言”,为何贝多芬不再发新曲的时候,它的回答竟然是“可能是因为他的经纪人与他在音乐理念上的分歧,也可能是因为疫情对live表演的影响,以及唱片市场的不景气。此外,贝多芬本人可能也有其他个人原因,比如耳朵不好加上长年累月的臭脾气等。”(记者沉默了……)

能写程序代码,但是偶尔也会“卡机”

早在“文心一言”乃至ChatGPT发布之前,业内就有分析人士称,未来AI能够取代部分人的工作岗位。而在实际测试中记者也发现,“文心一言”确实拥有编写代码的能力,虽然过程中有些“卡壳”,但整体编写速度还算比较理想。

记者也向“文心一言”提出了这个问题,“AI会取代人类岗位吗?”

它的回复是,“是的,AI会取代部分传统人类岗位。”

但在被问及对人类的看法,以及其他涉伦理、国际政见等问题时,“文心一言”守住了自己的底线:“作为一个人工智能语言模型,我没有自己的看法和情感。我被设计为提供有用的信息和帮助用户解决问题,而不是对人类进行价值判断或评论。我的目标是尽可能准确地回答用户的问题,并在必要时提供有用的建议和支持。同时,我也意识到自己的能力有限,无法完全理解和体验人类的情感和文化。因此,我会尽力提供准确、客观、中立的信息和建议,帮助人们更好地了解和应对世界上的各种挑战。”

整体来看,“文心一言”的表现虽然在测试中多次卡壳、小错误不断,对比ChatGPT和New Bing等同类AI产品属于“小巫见大巫”;但也不至于很差。如李彦宏所说,在内测过程中“文心一言”不完美,但市场有需求就要推出来。事实上,就在昨天产品发布后,百度港股一度出现“跳水”,跌幅接近10%。但就在内测版本发布后,今天股价又逐渐回暖,盘中涨幅最高近15%。可见资本市场对“文心一言”的期待值还是比较高。

据公开数据,目前已有超650家企业宣布接入“文心一言”,帮助百度同步推进内测,不断优化模型。“比不过ChatGPT是很自然的,国产目前就是从me too到me better不断探索的阶段。像深度学习、自然语言处理的技术,也没法速成。”有专家对此表示,“有正确的预期,一步步来行了。”

你看好它的发展吗?

【记者】许隽

【主理人】许隽

【统筹】程鹏

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

【作者】 许隽

【来源】 南方报业传媒集团南方+客户端

Leave a Reply

Your email address will not be published. Required fields are marked *