AI与数学_Page 63_123智子教育

AI与数学

科学家强力打假大模型幻觉排行榜！Meta版ChatGPT一作发长文鸣冤新智元2023-11-15 13:26北京新智元2023-11-15 13:26北京

编辑：编辑部【新智元导读】Meta Galatica的一周年忌日快到了，LeCun和一作心里都很痛。比ChatGPT早诞生两周，却因幻觉被喷下架——ChatGPT的荣光，原本可能是属于Galactica的……同时，全网热转的大模型幻觉排行榜，也被专家打假了。大模型的幻觉问题，是业内老生常谈的话题了。最近，一个名为Vectara的机构，在GitHub推出了一个大模型幻觉排行榜。结果显示，在总结短文档方面，GPT-4的表现最为优异，而Google Palm的两款模型直接垫底！其中GPT-4的准确率为97.0%，幻觉率为3.0%，回答率为100.0%。而垫底的Palm Chat 2的准确率为72.8%，幻觉率高达27.2%，回答率为88.8%。项目地址：https://github.com/vectara/hallucination-leaderboard 这个榜单一出来，立马开始在网上疯转，不过，它也引发了许多业内人士的质疑。英伟达高级科学家Jim Fan表示，这个榜单在很多方面都存在问题—— 首先，它只评估了摘要与原文的事实一致性，却没有评估摘要本身的质量。其次，它也没有解释用于评估幻觉的LLM，具体性能到底如何。而LeCun这边，除了转发了Jim Fan的这条推文外，还有更多的「冤屈」要控诉。一年前的这个时候，Meta的科研模型Galactica才上线三天，就因为幻觉问题被喷下架。之后没过几天，ChatGPT全球爆火，LeCun对此愤愤不平了一整年。与此同时，沉默一年后，Galactica论文的一作Ross Taylor值此之际也被炸了出来，写下大段的总结倾诉委屈，表示自己心里真的很痛！ Galactica被贪婪的推特暴徒谋杀了！ Galactica之殇：一作泣血控诉再过两天，就是Galactica的一周年忌日了。 Sharon Goldman在外媒Venturebeat上发表了一篇文章《Meta从Galactica那里学到了什么？这个比ChatGPT早两周诞生的模型，为什么注定要失败》。 LeCun面色凝重地转发了这篇文章，打出了下面几行字，字字泣血—— Galactica是Meta为科学家做出的模型，在ChatGPT前几周发布，但3天后就被下线。它被贪婪的推特暴徒谋杀了。暴徒们声称，这种「大模型幻觉」会将摧毁科学出版系统。结果，一个对科学家非常有用的工具，被他们屠杀了。打着人工智能伦理的幌子，误导性的尖酸刻薄可能会适得其反。 LeCun如此沉痛，相爱相杀的老冤家马库斯却跳出来倒油了—— 一年前，Meta不负责任推出Galactica，并未做红队工作。科学界介入，并指出了缺陷。现在，Meta的LeCun居然用「谋杀」来形容他的团队忽略的红队工作。这令人瞠目结舌。 Galactica一作也趁势被炸出，表示这个故事，自己已经在心底埋藏一年了…… Taylor说，Galactica是一个基于科学文献和科研范式训练的基础模型。当时在同领域中，它的性能很好，优于PaLM和Chinchilla，计算量分别减少了10倍和2倍。 Galactica的团队只有8人，比其他的LLM团队少了一个数量级。在发布Galactica时，团队过度紧张，以至于失去了态势感知能力，发布的demo是没有经过检查的基本模型。一年前发布demo时，团队希望能了解人们利用LLM进行科学查询的分布情况，这对指令调整和RLHF很有用。当时他们有一个善意的假设——开源所有模型，并且在demo中包含了对幻觉的免责声明，这样人们就可以畅想，Galactica可以用来干什么。结果，一切都失控了。他们想给大家一个免费的工具，但记者们却在科学文献之外的领域使用Galactica，大肆宣传模型幻觉的荒谬和危害。团队犯的另一个错误是，让人们误以为网站就是产品。其实团队只是把愿景放在网站上，放出了一个基本模型demo，Galactica绝不是一个产品。现在它已经在HuggingFace上存在一年了，也并没有造成任何损害。显然，反Galactica的舆论很愚蠢。尽管如此，Taylor表示即使再来一次，自己还是会做出同样的选择。即使后悔，也好过什么都不做。但是，心里真的很痛！有网友表示，你不用这么抱歉，Galactica显然是被网暴了。仔细想想，其实ChatGPT和Galactica一样愚蠢。网友们对Galactica散布的恐惧，显然过度了。 LeCun转发了一作写下的故事，并表示—— 开源界的口头禅，是「早点发布，经常发布」。但如果涉及AI，就得加上「没错，但要准备好忽略推特暴徒对它厄运的荒谬预言」。「网红」LLM幻觉评测方法说起来，这个「网红」大模型幻觉评测，是怎么做出来的呢？文章地址：https://vectara.com/cut-the-bull-detecting-hallucinations-in-large-language-models/ 为了评估大模型的幻觉，Vectara对摘要模型的事实一致性进行了研究。具体来说，这一领域研究的是，训练模型检测抽象摘要（即原始资料的转述）中事实不一致之处的方法。...

3 years前 30

ChatGPT在美国青少年的作业中的应用及伦理争议

ChatGPT在美国青少年中的使用现状及伦理争议

科学家强力打假大模型幻觉排行榜！Meta版ChatGPT一作发长文鸣冤新智元2023-11-15 13:26北京新智元2023-11-15 13:26北京

ChatGPT与通用人工智能：数学物理机制探究