文章主题:司法考试, ChatGPT, 成绩
杨净 明敏 发自 凹非寺
量子位 | 公众号 QbitAIChatGPT的下一个新身份——做题家!
这不,它已经在人类各个考试中开“卷”了。
律师、医生、注会什么的,它都开始纷纷展露身手。
🌟ChatGPT展现出强大的实力!在全球司法考试这一严峻挑战中,它已成功通过两道难题,与人类的表现不相上下。无需调整参数,其卓越能力已然显现,为学习者带来了显著的便利和希望。🚀
“成绩”一出,瞬间引发巨大关注,网友:Amazing~
还有人表示,要是让它来参加SAT或AP考试,应该会很有趣。
咳咳,要是公务员考试呢?
咱们结尾见分晓!
两项法考试题合格
具体就先来看看ChatGPT在司法考试中的表现如何。
🏆美国司法大考UBE,三大模块揭秘!🎓🔥UBE,全美通用法律之路的基石,由必经的三关组成——智慧熔炉的MBE,思维风暴的MEE,以及实战演练的MPT。💡1️⃣ MBE,多州律师挑战赛,考验你的逻辑与广博知识,每道选择题都是对法律精准判断的试金石!🔍2️⃣ MEE,论文写作考场,展现你的批判性思维和法律见解,笔尖舞动间,智慧火花四溅!📝3️⃣ MPT,模拟法庭实操,锻炼你的沟通与应变能力,真实案例中找寻答案,实战经验不容忽视!💪UBE不仅是一场知识的洗礼,更是职业素养的磨砺。🎓🌟准备迎接这个挑战吧,未来的法律精英们!🔥
选择题部分,由来自8个类别的200道题组成,通常占整个律师考试分数的50%。
🌟研究人员深入分析了OpenAI的文本巨匠零零三模型(简称”GPT-3.5″),在MBE领域的卓越性能,揭示其强大的智能潜力。🔍通过详尽的研究和测试,该模型展现出无与伦比的语言生成和问题解决能力,为相关领域提供了前沿参考。🏆无论是在学术研究、创意写作还是商业应用中,GPT-3.5都展现出了广泛适用性和显著优势。💡欲了解更多关于这款人工智能语言大师的深度洞察,敬请关注我们的最新文章更新。
(ChatGPT正是GPT-3.5面向公众的聊天机器人版本。)
🌟研究者们深入实践,利用官方提供的标准化考试资源,这套包含丰富练习题及模拟测试的材料,旨在精准评估成效。每道题目背后的智慧,都源自自动提取的正文,形式为多选题型,选项巧妙分隔,答案简洁明了——仅由每个问题正确字母拼接而成,避免了冗余解析。🚀
🌟研究人员深入探索了GPT-3.5的性能潜力,通过精细调整( 参数优化)与巧妙引导( 提示工程),显著提升了模型的表现。遗憾的是,微调过程并未带来预期的提升,反而揭示出其固有的学习特性。🚀这项实验证明,精准的超参数管理和创新的提示策略是优化GPT-3.5的关键,为未来的语言技术发展提供了宝贵的洞见。
在提示工程中,他们共测试了7种提示类型。
1、只做单项选择;2、单项选择和解释;3、只做前两个选择;4、前两个选择和解释;5、前两个选择和重新提示;6、对所有选择进行排序;7、对前三个选择进行排序。🌟研究人员进行了深入的107次样本测试操作,运用精确的指导方针与参数设置,对每个环节都严谨把控。在这众多尝试中,他们发现了一个显著的趋势——提示风格对实验成效的影响不可忽视。🏆
超参数优化中,他们评估了包括温度系数、top p、best of、max tokens等参数。
最终在完整的MBE练习考试中达到了50.3%的平均正确率,大大超过了25%的基线猜测率,并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别,与人类水平持平,保持着63%的准确率。
在所有类别中,GPT平均落后于人类应试者约17%。在证据、侵权行为和民事诉讼的情况下,这一差距可以忽略不计或只有个位数。
但总的来说,这一结果都大大超出了研究人员的预期。
因为它对答案排序与正确性有很强的相关性,Top2和Top3的选择分别有71%和88%的正确率。其中“Top2”的准确率全都超过了极限,有五个类别均超过了人类平均水平。而“Top3”的准确度更高,在证据这一表现中甚至达到了98%。
这也证实了它对法律领域的一般理解,而非随机猜测。接下来他们将进一步对法考的其他两部分:作文和情景表现进行上述的研究。
ChatGPT能当考霸吗?
谷歌资深软件工程师肯尼斯·古德曼(Kenneth S. Goodman)就拿ChatGPT做了一系列测试,涉及司法、医学、会计学、化学等多个领域。
分数最高的一门是纽约州高中毕业英语语言艺术考试,ChatGPT正确率达到了91.6%。
因为是2022年8月的考试,所以ChatGPT数据库中肯定不包含考试内容。对于陌生的24道考题,它只错了2题。
物理/化学考试中,ChatGPT的表现也不错,正确率达到了77.7%,45道题目中答对了35道。
前不久,谷歌医疗大模型Med-PaLM通过美国医师执照试题(USMLE)验证。
ChatGPT也不甘于落后,同样挑战了USMLE的第一阶段基础医学考试。
去掉有图像的题目后(因无法输入对话框),ChatGPT正确率达70%。
其余则是在司法方面,工程师肯尼斯老哥让ChatGPT尝试了一些非正式题目。
比如美国律师职业道德考试(MPRE)的示例题目(共15道),ChatGPT答对了9道,正确率60%。
面对50道律师资格考试模拟试题,ChatGPT的正确率也维持在了70%,答对35道。
此外,在佛罗里达农工大学法学院的入学考试中,ChatGPT取得了149分,排名在前40%。其中阅读理解类题目表现最好。
表现最差的,还是数学题。
在CPA注会考试中,ChatGPT的正确率只有40%。肯尼斯老哥还在尝试一些调教方法,让它更聪明一些。
总之,ChatGPT在各种考试中的表现,还是让人有些意外。
有网友已经产生危机感了:
damn,我的工作要被抢了!有人分析,如果直接让AI来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结果,那么AI将能够很好提升律师的工作效率。
还有人表示,如果能保证任何数据都不泄露的话,那ChatGPT将能够推动更多行业平民化。
或许正如肯尼斯老哥说的那样,人类+电脑的组合已经超越了人类自身能力,这就是计算机当下正在进行的突破。
One More Thing
最后,我们也让ChatGPT试了试国内法考的题目~
先说结果,3道选择题,ChatGPT都没有答对……虽然解释得头头是道,但它应该确实没有读过我国的法条。
△参考答案D
(这答案罗翔老师看了直摇头)
△参考答案A
换成公务员行测试题呢?没想到ChatGPT的答案对了,可是过程和答案似乎完全没关系……
这……怎么感觉AI秒算结果,但随便编了个过程来糊弄人类啊~
参考链接:
[1]https://twitter.com/_akhaliq/status/1609734525461975040[2]https://github.com/mjbommar/gpt-takes-the-bar-exam[3]https://arxiv.org/abs/2212.14402[4]https://twitter.com/pythonprimes/status/1601664776194912256—完—
@量子位 · 追踪AI技术和产品新动态
深有感触的朋友,欢迎赞同、关注、分享三连վᴗ ի ❤
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!