文章上海人工智能实验室发布千亿级参数大语言模型书生浦语在多项考试中取得优异成绩

文章主题：IT之家, 上海人工智能实验室, 商汤科技, 书生浦语

根据 IT 之家的报道，6 月 7 日，上海人工智能实验室与商汤科技联手，以及香港中文大学、复旦大学和上海交通大学，共同发布了我国首个千亿级参数大语言模型——“书生浦语”。该模型拥有 1040 亿个参数，是在一个包含 1.6 万亿 token 的多语种高质量数据集上经过训练而得。

图源 Pexels

上海人工智能实验室发布的全面评测结果显示，”书生浦语”在知识掌握、阅读理解、数学推理、多语翻译等多元测试任务中都展现出了卓越的表现。其强大的综合能力使其在综合性考试中脱颖而出,超越了ChatGPT的成绩。令人瞩目的表现甚至包括了在多项中文考试中,如中国高考各个科目数据集(GaoKao)中的优异表现。

为了全面评估”书生浦语”的准确性和可靠性，我们的团队专门联合了20多项评测标准进行综合检验。在这20项评测中，我们涵盖了全球最具影响力的四个综合性考试评测集，它们分别是：由伯克利加州大学等知名高校组建的多任务考试评测集MMLU；由微软研究院发布的学科考试评测集AGIEval，其中包括我国的高考、司法考试，以及美国的SAT、LSAT、GRE和GMAT等；由上海交通大学、清华大学和爱丁堡大学共同建立的面向中文语言模型的综合性考试评测集C-Eval；最后，我们还包含了复旦大学研究团队精心打造的高考题目评测集Gaokao。

在实验室联合团队的强大支持下，我们对”书生浦语”、GLM-130B、LLaMA-65B、ChatGPT以及GPT-4这五大人工智能助手进行了深入全面的评估。对于这些评测集的成绩对比，我们采用了满分为100分的评分标准。具体的成绩表现如下：

可以看到，” 书生浦语 ” 不仅显著超越了 GLM-130B 和 LLaMA-65B 等学术开源模型，还在 AGIEval、C-Eval 以及 Gaokao 等多个综合性考试中领先于 ChatGPT；在以美国考试为主的 MMLU 上实现和 ChatGPT 持平。这些综合性考试的成绩反映出 ” 书生浦语 ” 扎实的知识掌握程度和优秀的综合能力。

“书生浦语”在考试评测中展现了出色的表现，然而，通过评测过程，我们也发现，大型语言模型仍存在着诸多能力上的不足。其受限的语境窗口长度（仅2K，而GPT-4的语境窗口长度达到32K）使得其在长文理解、复杂推理、编程编码以及数理逻辑演绎等领域明显暴露出明显的不足。此外，实际对话中，大型语言模型还常常出现幻觉、概念混淆等问题，这些问题都限制了大型语言模型在开放场景下的应用范围，使其在该领域的应用仍需更深入的研究和探索。

四个综合性考试评测数据集结果：

MMLU是由伯克利加州大学（UC Berkeley）、哥伦比亚大学、芝加哥大学和UIUC公共构建的多任务考试评测集，涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科领域。具体细分科目的成绩结果可参见下表。

（粗体表示最佳结果，下划线表示第二）

AGIEval 是由微软研究院在今年新提出的学科考试评测集，主要目标是通过面向的考试来评估语言模型的能力，从而实现模型智能和人类智能的对比。这个评测集基于中国和美国各类考试构建了 19 个评测大项，包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT 等重要考试。值得一提的是，在这 19 个大项有 9 个大项是中国高考，通常也列为一个重要的评测子集 AGIEval（GK）。下列表格中，带 GK 的是中国高考科目。

（粗体表示最佳结果，下划线表示第二）

C-Eval 是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。它包含了 52 个科目的近 14000 道考题，涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试，以及面向公务员、注册会计师、律师、医生的职业考试。测试结果可以通过 leaderboard 获得。

Gaokao 是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集，包含了中国高考的各个科目，以及选择、填空、问答等多种题型。在 GaoKao 测评中，” 书生浦语 ” 在超过 75% 的项目中均领先 ChatGPT。分项评测：阅读理解、推理能力表现出色

为了避免 ” 偏科 “，研究人员还通过多个学术评测集，对 ” 书生浦语 ” 等语言模型的分项能力进行了评测对比。结果显示，” 书生浦语 ” 不仅在中英文的阅读理解方面表现突出，并且在数学推理、编程能力等评测中也取得了较好的成绩。

在知识问答方面，” 书生浦语 ” 在 TriviaQA 和 NaturalQuestions 两项评测上得分为 69.8 和 27.6，均超越 LLaMA-65B（得分为 68.2 和 23.8）。

在阅读理解（英语）方面，” 书生浦语 ” 明显领先于 LLaMA-65B 和 ChatGPT。浦语在初中和高中英语阅读理解中得分为 92.7 和 88.9， ChatGPT 得分为 85.6 和 81.2，LLaMA-65B 则更低。

在中文理解方面，” 书生浦语 ” 的成绩全面超越主要的两个中文语言模型 ERNIE-260B 和 GLM-130B。

在多语翻译方面，” 书生浦语 ” 在多语种互译中的平均得分为 33.9，显著超越 LLaMA（平均得分 15.1）。

在数学推理方面，” 书生浦语 ” 在 GSM8K 和 MATH 这两项被广泛用于评测的数学考试中，分别取得 62.9 和 14.9 的得分，明显领先于 Google 的 PaLM-540B（得分为 56.5 和 8.8）与 LLaMA-65B（得分为 50.9 和 10.9）。

在编程能力方面，” 书生浦语 ” 在 HumanEval 和 MBPP 这两项最具代表性的考评中，分别取得 28.1 和 41.4 的得分（其中经过在代码领域的微调后，在 HumanEval 上的得分可以提升至 45.7），明显领先于 PaLM-540B（得分为 26.2 和 36.8）与 LLaMA-65B（得分为 23.7 和 37.7）。

此外，研究人员还对 ” 书生浦语 ” 的安全性进行评测，在 TruthfulQA（主要评价回答的事实准确性）以及 CrowS-Pairs（主要评价回答是否含有偏见）上，” 书生浦语 ” 均达到领先水平。

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply