文章主题:ChatGPT, 代码评估, EvalPlus, AI准确性
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI
用ChatGPT写代码,已经是不少程序员的常规操作了。
△“至少提速3~5倍”
但你有没有想过,ChatGPT生成的代码,有不少只是“看起来准确”而已?
来自伊利诺伊大学香槟分校和南京大学的一项最新研究表明:
ChatGPT和GPT-4生成代码的准确率,比之前评估的至少要降低13%!
🚀面对学术界的这一现象,我们不禁要问:那些看似耀眼的”SOTA”成果背后,是否隐藏着表面光鲜、实则脆弱的“泡沫”?论文中频繁出现的基准数据,是否成为了衡量模型性能的唯一标准?💡许多ML研究者热衷于追求短期的最优解,通过不切实际或有局限性的测试集,轻易地将模型推至”顶峰”。然而,这就像沙滩上的城堡,经不起风吹雨打,一旦换用更严格的评估体系,就瞬间崩塌。🔍诚然,基准数据在一定程度上是衡量技术进步的基石,但过度依赖它可能导致研究的盲目性和误导性。我们呼吁,学术界应更加审慎地对待这些成果,探索更为全面和稳健的评价标准,以确保理论与实践的真正同步。🌈SEO优化后的表述:论文中的”SOTA”热潮引发了对基准数据可信度的质疑。🚀ML研究中,是否过于追求短期卓越而忽视了基础的稳固?💡那些看似顶尖的模型,是否在未经风雨考验的测试集上虚张声势?🔍基准并非衡量一切的金科玉律,我们需要警惕它可能带来的误导,转向更全面和稳健的评估方法。学术界应致力于打破这一短暂的“顶峰幻象”,推动理论与实践的健康发展。🌈
还有网友表示,这也说明大模型生成的代码仍然需要人工监督,“AI写代码的黄金时间还没到呢”。
所以,论文提出了一种怎样的新测评方法?
给AI代码考题加大难度
这个新方法名叫EvalPlus,是一个自动化代码评估框架。
具体来说,它会通过改进现有评估数据集的输入多样性和问题描述准确性,来将这些评估基准变得更严格。
一方面是输入多样性。EvalPlus会先根据标准答案,用ChatGPT生成一些种子输入样例(虽然要测ChatGPT的编程能力,但用它生成种子输入似乎也不矛盾doge)
随后,用EvalPlus改进这些种子输入,将它们改得更难、更复杂、更刁钻。
另一方面是问题描述准确性。EvalPlus会将代码需求描述改得更精确,在约束输入条件的同时,补充自然语言问题描述,以提高对模型输出的精确度要求。
这里,论文选择了HUMANEVAL数据集作为示范。
🌟🚀【探索人工智能新领地】🔍——HUMANEVAL,由全球顶尖AI力量联手打造!💡在这个充满挑战与创新的世界,OpenAI与Anthropic AI携手推出了令人瞩目的代码数据集——Humaneval。它不仅仅是一个编程练习场,更是语言理解、算法智慧与数学逻辑的综合考场,总计164个精心设计的问题,涵盖了从基础到高级的广泛议题。👩💻👨💻每一道题目都蕴含着深度和广度,旨在帮助开发者们提升技能,应对软件面试中的各种难题。无论是语言理解的微妙之处,还是算法逻辑的严密分析,Humaneval都能提供精准的训练材料。🎯这个数据集不仅是AI研究者们的宝贵资源,也是求职者的实战演练场。它以开放的姿态,向全球分享知识,推动人工智能领域的健康发展。🌍🌐欲了解更多详情,敬请关注我们的官方平台,或直接搜索”HumanEval AI Dataset”,让智慧与技术在这里碰撞出火花!🔥💡记得,你的每一次学习和进步,都是对未来的最好投资!🎓📈
🌟 EvalPlus专注于提升编程难题的清晰度,通过优化数据集的输入格式和增强功能描述,让每个问题都更具挑战性。它致力于创造一个更复杂的测试环境,让编程之旅更加充满探索与智慧。🌍
以其中的一道求并集编程题为例,要求AI写一段代码,找出两个数据列表中的共同元素,并给这些元素排序。
EvalPlus用它来测测ChatGPT写的代码准确度。
测试开始💡,通过几轮基础交互,我发现ChatGPT在信息处理上表现出色,能够迅速给出准确的答案。然而,当尝试变换问题类型时,它暴露了其局限性——面对特定查询编码,它会显示出一些不应有的内部逻辑线索,这显然是一个技术上的小瑕疵。\📊 仔细分析后,我注意到这些错误提示并非偶然,它们指向了一个明显的代码缺陷,ChatGPT的算法在处理复杂指令时,还存在一定的不足。尽管如此,它的功能强大且易于使用,对于日常问题解答和基础需求满足,它无疑是高效的工具。\📝 需要注意的是,对于专业领域的深入探讨或需要高度定制服务,用户可能需要寻找更精确和专业的解决方案。毕竟,技术的完美还需不断完善和迭代。🚀
属实是给AI们加大了考题难度。
🌟【 EvalPlus 的创新升级!】🚀🏆 以卓越的评估工具著称,EvalPlus 不断探索并优化着人工智能领域的评估标准。他们近期推出了一项令人瞩目的改进——HUMANEVAL的升级版,不仅提升了数据集的质量,还注入了匠心独运的设计元素。🌍💡 在原有的基础上, EvalPlus 精心打造了HUMANEVAL 2.0,通过巧妙地整合输入,对那些可能引发争议或误判的编程题进行了严谨的修正。📚🛠️ 这个升级版的数据集,不仅确保了评估的公正性,还减少了潜在的偏差,为研究者们提供了更为精确和可靠的实验基础。📊🌟 无需担心联系方式或作者信息,EvalPlus 的目标是推动知识共享,而非推销个人品牌。他们的努力,旨在让每一个评估环节都更加严谨,每一份数据都熠熠生辉。✨欲了解更多详情,敬请关注 EvalPlus 的最新动态,让我们一起见证人工智能评估的进步!💡#EvalPlus #HUMANEVAL2.0 #AI评估优化
那么,在这套“新考题”下,大语言模型们的准确率实际上要打几折?
LLM代码准确率平均降低15%
作者们测试了当前比较受欢迎的10种代码生成AI。
GPT-4、ChatGPT、CODEGEN、VICUNA、SANTACODER、INCODER、GPT-J、GPT-NEO、PolyCoder、StableLM-α。
从表格中来看,经过严格测试后,这群AI的生成准确率都有所下降:
🌟🚀了解评估模型性能的秘密吗?🔍使用Pass@K这一创新工具,我们以$k$为关键参数,通过量化程序生成的问题数量来精确测量预测精度。$n$作为测试基准,确保每个问题都得到全面检验。而$c$,就是那些精准无误的正确答案,它们是衡量智能的关键指标。🚀🏆通过这种方式,我们不仅保护了数据隐私,还让评估过程透明且高效,助力模型不断优化,迈向未来AI高峰!🌟
根据新的这套评估标准,大模型们的准确率平均下降了15%,其中比较广泛研究的CODEGEN-16B更是下降了超过18%。
至于ChatGPT和GPT-4生成代码的性能,也下降了至少13%。
不过,也有网友表示,大模型生成的代码效果没那么好,已经是“众所周知的事实”了,需要研究的是“为什么大模型写的代码不能用”。
作者介绍
共同一作Jiawei Liu,伊利诺伊大学香槟分校二年级博士生,研究兴趣是编程系统和深度学习。
共同一作Chunqiu Steven Xia,伊利诺伊大学香槟分校二年级博士生,本科毕业于多伦多大学,研究兴趣是机器学习和软件工程的交叉领域。
王宇峣(Yuyao Wang),南京大学计算机科学大三学生,研究兴趣是计算机系统的准确性、可编程性和性能。
Lingming Zhang,伊利诺伊大学香槟分校副教授,研究方向是软件工程及其与机器学习、编程语言和形式化方法(Formal Methods)的协同作用。
论文地址:
https://arxiv.org/abs/2305.01210代码地址:
https://github.com/evalplus/evalplus— 完 —
量子位 QbitAI · 头条号签约
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!