ChatGPT在美国青少年中的使用现状及伦理争议
AI与数学

ChatGPT在美国青少年中的使用现状及伦理争议

美国青少年中,13% 倾向于使用 ChatGPT 完成作业,特别是年龄较大的学生;ChatGPT的使用引发了一系列道德争议,多数学生认为其研究新话题是可以的,但解决数学问题和写论文则存在道德困扰;尽管有人担忧 ChatGPT 和其他先进技术会加速技能过时,但有 expert 认为这不过是一种恐慌。
科学家强力打假大模型幻觉排行榜!Meta版ChatGPT一作发长文鸣冤新智元2023-11-15 13:26北京新智元2023-11-15 13:26北京
AI与数学

科学家强力打假大模型幻觉排行榜!Meta版ChatGPT一作发长文鸣冤新智元2023-11-15 13:26北京新智元2023-11-15 13:26北京

编辑:编辑部 【新智元导读】Meta Galatica的一周年忌日快到了,LeCun和一作心里都很痛。比ChatGPT早诞生两周,却因幻觉被喷下架——ChatGPT的荣光,原本可能是属于Galactica的……同时,全网热转的大模型幻觉排行榜,也被专家打假了。 大模型的幻觉问题,是业内老生常谈的话题了。 最近,一个名为Vectara的机构,在GitHub推出了一个大模型幻觉排行榜。 结果显示,在总结短文档方面,GPT-4的表现最为优异,而Google Palm的两款模型直接垫底! 其中GPT-4的准确率为97.0%,幻觉率为3.0%,回答率为100.0%。而垫底的Palm Chat 2的准确率为72.8%,幻觉率高达27.2%,回答率为88.8%。 项目地址:https://github.com/vectara/hallucination-leaderboard 这个榜单一出来,立马开始在网上疯转,不过,它也引发了许多业内人士的质疑。 英伟达高级科学家Jim Fan表示,这个榜单在很多方面都存在问题—— 首先,它只评估了摘要与原文的事实一致性,却没有评估摘要本身的质量。其次,它也没有解释用于评估幻觉的LLM,具体性能到底如何。 而LeCun这边,除了转发了Jim Fan的这条推文外,还有更多的「冤屈」要控诉。 一年前的这个时候,Meta的科研模型Galactica才上线三天,就因为幻觉问题被喷下架。之后没过几天,ChatGPT全球爆火,LeCun对此愤愤不平了一整年。 与此同时,沉默一年后,Galactica论文的一作Ross Taylor值此之际也被炸了出来,写下大段的总结倾诉委屈,表示自己心里真的很痛! Galactica被贪婪的推特暴徒谋杀了! Galactica之殇:一作泣血控诉 再过两天,就是Galactica的一周年忌日了。 Sharon Goldman在外媒Venturebeat上发表了一篇文章《Meta从Galactica那里学到了什么?这个比ChatGPT早两周诞生的模型,为什么注定要失败》。 LeCun面色凝重地转发了这篇文章,打出了下面几行字,字字泣血—— Galactica是Meta为科学家做出的模型,在ChatGPT前几周发布,但3天后就被下线。它被贪婪的推特暴徒谋杀了。暴徒们声称,这种「大模型幻觉」会将摧毁科学出版系统。结果,一个对科学家非常有用的工具,被他们屠杀了。打着人工智能伦理的幌子,误导性的尖酸刻薄可能会适得其反。 LeCun如此沉痛,相爱相杀的老冤家马库斯却跳出来倒油了—— 一年前,Meta不负责任推出Galactica,并未做红队工作。科学界介入,并指出了缺陷。现在,Meta的LeCun居然用「谋杀」来形容他的团队忽略的红队工作。这令人瞠目结舌。 Galactica一作也趁势被炸出,表示这个故事,自己已经在心底埋藏一年了…… Taylor说,Galactica是一个基于科学文献和科研范式训练的基础模型。当时在同领域中,它的性能很好,优于PaLM和Chinchilla,计算量分别减少了10倍和2倍。 Galactica的团队只有8人,比其他的LLM团队少了一个数量级。在发布Galactica时,团队过度紧张,以至于失去了态势感知能力,发布的demo是没有经过检查的基本模型。 一年前发布demo时,团队希望能了解人们利用LLM进行科学查询的分布情况,这对指令调整和RLHF很有用。当时他们有一个善意的假设——开源所有模型,并且在demo中包含了对幻觉的免责声明,这样人们就可以畅想,Galactica可以用来干什么。 结果,一切都失控了。 他们想给大家一个免费的工具,但记者们却在科学文献之外的领域使用Galactica,大肆宣传模型幻觉的荒谬和危害。 团队犯的另一个错误是,让人们误以为网站就是产品。其实团队只是把愿景放在网站上,放出了一个基本模型demo,Galactica绝不是一个产品。 现在它已经在HuggingFace上存在一年了,也并没有造成任何损害。显然,反Galactica的舆论很愚蠢。 尽管如此,Taylor表示即使再来一次,自己还是会做出同样的选择。即使后悔,也好过什么都不做。但是,心里真的很痛! 有网友表示,你不用这么抱歉,Galactica显然是被网暴了。仔细想想,其实ChatGPT和Galactica一样愚蠢。网友们对Galactica散布的恐惧,显然过度了。 LeCun转发了一作写下的故事,并表示—— 开源界的口头禅,是「早点发布,经常发布」。但如果涉及AI,就得加上「没错,但要准备好忽略推特暴徒对它厄运的荒谬预言」。 「网红」LLM幻觉评测方法 说起来,这个「网红」大模型幻觉评测,是怎么做出来的呢? 文章地址:https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/ 为了评估大模型的幻觉,Vectara对摘要模型的事实一致性进行了研究。 具体来说,这一领域研究的是,训练模型检测抽象摘要(即原始资料的转述)中事实不一致之处的方法。...
ChatGPT与通用人工智能:数学物理机制探究
AI与数学

ChatGPT与通用人工智能:数学物理机制探究

这篇文章主要介绍了人工智能的发展和应用。首先,文章讨论了关于通用人工智能(AGI)的概念和现状,引用了一些相关研究,如DeGiuli E的随机语言模型和Bubeck等人关于gpt-4的实验。其次,文章探讨了一种名为“Transformer”的人工智能模型,该模型被揭示为一种基于自旋系统的集合。最后,文章介绍了一种基于 renormalization group 和 sparse prior 的流动模型 RG-Flow,并讨论了其在机器学习中的应用。