文章主题:大语言模型, 开发, 训练, 中文大语言模型
大语言模型的开发和训练是极其困难的,而中文大语言模型的训练因为种种原因,困难程度还要高一个等级。
一方面,全球互联网的信息中,中文信息所占的比例是相对较小的。在学术论文、各行各业专业网站等成体系的知识里,中文所占的比例就更小了。从“喂养”人工智能的语料丰富程度来对比,中文在起跑时就已经落后了一截。另一方面,中文真实世界的信息电子化程度还相对比较低。不管是人也好,人工智能也好,想要通过互联网了解一个真实的中国都比较困难。举个例子:我写健康科普的时候想要查询最新的《中国居民膳食营养指南》,发现中国营养学会的官网并没有提供查询工具,也没有提供指南的PDF版,只有纸质书的购买链接。与之对应的,某英文国家的居民膳食营养指南就能很便捷地查询到电子版。也因此,一个基于互联网信息的人工智能想要帮助我们解答在中文世界里遇到的真实问题,自然就没那么容易。作为中文世界第一个交卷的人工智能大语言模型,百度的文心一言显现出和ChatGPT的差距是意料之中的事情。我更关心的是:文心一言到底被训练到了怎样的智能程度,距离可以帮助我们解答现实中的问题到底还有多远?电影《人工智能》海报带着这样的目标,我用自拟的一套中学水平的题目测试了一下文心一言,看看它解决语文、数学、英语、物理、化学、历史问题到底能拿多少分。没想到,答得最好的居然是历史题。一、语文题我选了一个比较特别的成语【空穴来风】来测试文心一言。
文心一言给出的答案出人意料地精彩,它不仅准确地诠释了“空穴来风”的原始含义,还揭示了这一成语在广泛应用过程中所发生的误解。为了让读者更好地理解,作者还列举了两个具体且易于理解的实例。此外,整个回答的结构安排得十分紧凑,逻辑清晰,让人易于理解。
作为对比,我用百度搜索了同样的问题,得到的结果就远不如文心一言的答案。
在这个场景里面,文心一言起到了信息汇总和分析的作用,这是人工智能相比传统搜索引擎的优势所在。
接着我又测试了写作文的能力,给的是经典题目《难忘的一天》,指定了一些人物和时间的细节。
在这次任务中,文心一言提供了一个看似完整,但实际上仅获得50分的结果。它在理解《难忘的一天》的主题上做得相当好,然而,它却没有洞察到我为何选择将故事发生在这个特定的日期——2月14日,这背后的用心是难以忽视的。此外,文心一言也未能察觉到主人公的年龄只有15岁,他尚未成年,因此,让他进入酒吧并不合适。
若我欲通过百度解决此问题,唯有如此检索,随后运用范文进行拼凑与修订。尽管缺乏创新性,却可避免诸如15岁便步入酒吧等不当行为。
二、数学题我先是问了一个我觉得对于人工智能来说应该手到擒来的问题:

在这个问题上,我指定的条件明确且无歧义,质数的定义也清晰明了。然而,令人遗憾的是,文心一言并未给出正确的答案,甚至未能提供完整的信息。尽管我在提示后依然看到对方“拒不悔改”,这无疑是一次严重的失误。
反而是百度搜索在这个问题上的表现更胜一筹:
虽然百度搜索能力强大,但此处所提的问题并非源于此。实际上,人类手动整理了相关的素数表,借助生物的大脑和双手完成了相关任务,从而使得该信息得以被检索到。同时,在获取答案的过程中,我还需要对搜索结果进行进一步的筛选和优化。
接着我测试了一个难度不高但语言表述复杂一些的数学题:

如果我想用百度搜索来解决这个,虽然百度搜索不能直接回答,但它会提供由人类手动开发的计算工具:
作为一名人工智能助手,我能够理解人类在面对科技进步时的担忧与疑虑。尽管机器的智能正在迅速提升,但在处理现实问题方面,人类仍然具有无可替代的优势。这使得我们能够从这些进步中获得一定程度的安慰,因为我们知道,在应对复杂情况时,人类的智慧和能力仍然是不可或缺的。
三、英语题我先是测试了一个比较常规的句子翻译题:
这个回答算是合格但并不优秀,我会给文心一言的表现打70分。比起那些单独的翻译软件来说,这个得分并不突出,但人工智能的优势在于它可以直接理解人类的自然语言,它知道我要翻译的是后半部分,而不是把我输入的所有文字都翻译成英文。对于人类来说,这是比“翻译器”更加友好的一种应用场景。
四、物理题在进行物理题目测试时,我并未直接依赖物理常识进行解答,而是通过设定一些具有挑战性的条件,构建出一个在现实世界中并不存在的场景。
若想让人工智能准确地回答这个问题,它需完成两个任务。首先,必须寻找到计算重力常数的方法;其次,还需发现我未提及,但在网络上已有解答的参数,例如地球与月球的质量、半径等。
从上述结果可以看出来,文心一言只完成了第一步工作,找到了计算方法,但它还不会自己去找到相应参数来算出结果。
按我的理解,在未来很长一段时间内,人工智能能够给我们的帮助都将会局限在类似的水平,就是能帮助我们解决一部分的问题,提高一些效率,但无法给出准确可靠的最终结果。机器还在成长,人类还有时间,问题就在于留给人类的时间还有多少……
五、化学题这里我问了一个需要汇总的,带有一定开放性的问题,想知道人工智能会回答到什么程度。
从文心一言反馈的结果来看,这个答案虽然不是百分百正确,但还是很不错的。更重要的是,可以明显地看出来,文心一言回答这个问题不是从单一来源搬运答案,而是从不同来源获取信息后综合得到的答案。回答问题的结构也对人类非常友好,给出了相应化学式,还补充了重要的信息。
六、历史题与自然学科不同,历史学科的问题经常带有一定的主观性,有时并没有唯一准确的答案,这样的问题能够测试人工智能对信息的选择偏好。
这个回答也是比较让我满意的,先是简洁地给出了肯定的答案,接着又补充了横向比较的信息和背后的原因。后面两部分我没问,但人工智能猜我会想知道,也一并把信息给了出来。
这是文心一言更像人而不是机器的特质,也是语言大模型最难的部分。从这个角度来说,文心一言还不够好用,但已经值得期待了。从以上六个学科的问题来看,你会给文心一言的综合表现打多少分呢?
大语言模型, 开发, 训练, 中文大语言模型
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!