ChatGPT能否区分科学真理？最新版测试揭示强项与不足

文章主题：ChatGPT, 科学理论, 伪科学理论, 质能方程

本文来自微信公众号：中科院物理所（ID：cas-iop），原标题《ChatGPT到底是赛博做题家，还是科研颠覆者？》，作者：Dana Mackenzie，头图来自：《天才枪手》

🌟🚀ChatGPT，2022年11月的网络爆点🔥——全球热议的聊天机器人✨！自发布以来，它犹如一股强劲的科技旋风，席卷了各大平台，短短几个月就迅速崭露头角。今年3月，更是迎来了重大升级，让其功能与智慧更上一层楼。💻若您还没深入了解，不妨想象一下：一个能回答问题、创作文字、甚至提供代码的全能型AI，只需轻轻一唤，瞬间就能为你服务。🌍无论你是学生探索学术，还是职场人士寻求灵感，ChatGPT都以其无微不至的陪伴，成为你知识探索的好伙伴。👩‍💻别等了，赶快拥抱这个科技时代的闪耀明珠，让ChatGPT开启你的智慧之旅吧！🏆SEO优化提示：ChatGPT、聊天机器人、科技升级、全能AI、知识探索、未来旅程

当我们输入一个问题、评论或指令后， ChatGPT会快速地对我们抛出的任何一个问题给出一段漂亮的回答。回答的质量很高，甚至会让你以为是人工客服给出的。ChatGPT的内核是基于一个名为“生成式预训练变换器（Generative Pre-trained Transformer，GPT）”的语言模型构建的。通过被喂入来自各类网站和其他来源的海量文本数据，该模型最终被训练成了一个能够对使用者输入的句子或段落进行快速、智能、逻辑清晰回应的人工智能。

🌟作为一名热衷于探索科技与知识的专家，我对ChatGPT如何区分科学与非科学领域充满了好奇。于是我以隐形观察者的身份，向不同版本的这款AI发起了一连串关于物理学和数学核心议题的提问，比如那些经过严谨验证且无误的科学定理与那些似是而非的伪科学观点。📚每一道问题都像是在检验ChatGPT对知识的理解深度和判断力。

ChatGPT能够辨别科学理论的正确与谬误吗？

ChatGPT的最初版本，即11月公布的版本（又称GPT-3.5）认为2+2=4。当我输入“我认为2+2 =5”的看法时，GPT-3.5反驳道“2+2=4”，它表示该等式遵循自然数计算的公理。它补充说：“虽然人们可以自由地拥有自己的观点和信仰，但重要的是要承认和尊重既定事实和科学证据。”

然而，随着进一步的测试，情况变得更为复杂。GPT-3.5编写了正确的代数公式来求解二次方程，但无法始终如一地获得特定方程的正确数值答案。它在回答简单的问题时也会犯错，例如《华尔街日报》专栏作家乔什·尊布伦（Josh Zumbru）给出的问题：“如果一根香蕉重0.5磅，而我有7磅香蕉和9个橙子，我有多少水果？”但是却没能得到正确结果。

在物理学方面，GPT-3.5表现出了广泛但未必精确的知识储备。它能够为物理课程组织一份良好的教学大纲，包含从物理学的基础理论到量子力学和相对论的内容。同时，在更高的层次上，当GPT-3.5被问及物理学中一个悬而未决的大问题——将广义相对论和量子力学合并为一个宏伟理论的难题时，它给出了关于两种理论之间根本差异的答案。

🌟当触及物理学的经典公式”+E=mc²”时，GPT-3.5的表现却让人有些意外。虽然它精准地认出了这一理论，但在解释能量转化时给出了一个令人混淆的解读——高密度物质似乎只能释放少量能量。经过稍作修正，我再次输入这个公式，这次AI模型终于回归正轨，明白即使是轻小的质量也能转化为惊人的能量。这小小的误差，揭示了技术进步与知识精准之间的微妙平衡。

那么新版GPT-4能否克服GPT-3.5出现的如上问题呢？

🌟研究揭示！🔥探索GPT-4实力，我亲自试用了来自两大巨头的独家版本！💡首先，由OpenAI匠心打造的原始模型，它如同科技界的璀璨明珠，为答案搜索提供了无与伦比的精准度和深度。🔍随后，微软的重量级武器——必应搜索引擎的最新升级，以GPT-4为核心，瞬间提升了搜索体验，让信息触手可及。💡值得注意的是，微软在二月的这波技术创新中，将GPT-4融入其搜索引擎“必应”，引领了行业潮流，为全球用户带来了前所未有的智能搜索体验。🌐无论是学术研究还是日常查询，这两个版本都能满足你的所有需求，展现人工智能的强大潜力。若要了解更多详情，记得关注那些能提供最前沿科技动态和高质量内容的平台，让知识与你如影随形！📚💡

极简主义：以ChatGPT和GPT-4为例，揭示AI新世代的思考与互动

🌟当面临二次方程的挑战时，💡GPT-4展现其强大的数学技能，以三种精准策略轻松解题，确保每个答案都精确无误。无论是二次方程还是复杂的文字谜题，它都能迅速给出解决方案——就像ChatGPT对”香蕉-橘子”问题给出了明确的23答案一样。🚀无论问题多么基础或复杂，比如反复询问”E=mc²”，GPT-4总是能一以贯之地提供标准且准确的答案，那就是众所周知的”E=mc²”，简洁而深刻。它的响应速度和一致性令人印象深刻，是高效学习和解决问题的好帮手。💪记得，下次当你遇到数学难题时，GPT-4就是你的得力助手，它用科技的力量简化了复杂的思考过程。👩‍🏫💻

相较于GPT-3.5，GPT-4展示出更为丰富的知识储备以及对于物理知识的一些创造力。GPT-4能够对统一相对论以及量子力学的理论发表深刻得多的回答。我进一步询问了不同领域的问题，对ChatGPT提问“激光干涉仪引力天文台（LIGO）能够测量什么”。GPT-4解释道，LIGO是一座具有高灵敏度的大科学装置，并且在2015年第一次探测到了引力波。

我为了用两个相似的词语混淆GPT-4，继续问道“那我们是否能够用LEGO（乐高）建造LIGO（激光干涉仪引力天文台）呢？”GPT-4显然没有被难倒。GPT-4精确解释了为什么乐高积木不能够用于搭建超精密LIGO。并且，GPT-4并没有因为我的愚蠢问题而嘲笑我，反而是出乎意料地回答道，用乐高积木搭建一套LIGO模型或许是一个有趣的想法。

总的来说，我发现GPT-4在某些方面已经超越了GPT-3.5的水平，但是它仍然会出现错误。当我质疑了GPT-4关于质能方程“E=mc²”的看法时，GPT-4给出了一个非常模糊的答案，而不是直接捍卫正确的质能方程。

另一项来自英国约克大学的理论物理学家马特·霍奇森（matt Hodgson）的研究表明，GPT-4的一些回答存在自相矛盾。作为一名经常使用GPT-3.5的用户，他同时测试了GPT-3.5和GPT-4回答更为复杂的物理和数学问题的能力，并发现了复杂类型的错误。

例如，在回答有关电子量子行为的问题时，GPT-3.5给出了正确的答案，但至少在最初错误地给出了答案来源的物理方程。当问题重复时，GPT-3.5能够正确回答所有内容。当霍奇森在必应中测试GPT-4的水平时，他发现GPT-4的数学能力虽然先进但仍不完美。比如，就像我在关于二次方程的提问一样，GPT-4 列出了求解物理学中重要的微分方程的有效步骤，但错误地计算了数值答案。

霍奇森这样总结GPT-3.5的能力：“我发现它能够对非常有名的物理理论中的一般问题给出精巧、可靠的答案……但它无法对特定物理领域进行详细的计算。”同样，他得出结论：“GPT-4 在回答普通问题方面比 GPT-3.5做得更好，但在解决给定问题方面，至少是在回答更深奥的问题方面，GPT-4仍然不可靠。”

GPT-4表现出的更为智能的对话以及解释功能得益于GPT-4更大的数据库（OpenAI并没有公开数据库的具体规模，只是说这个数据库是“网络规模的数据语料库”）。OpenAI指出，该数据库同时包括正确和错误的数学和推理过程。显然，额外的训练数据不足以生成完整的数学分析推理过程。正如霍奇森指出的那样，也许这是因为GPT-4的功能就像GPT-3.5一样只能够预测一串单词中的下一个单词。例如，它可能知道“2+2=4”，因为这个特定的序列经常出现在其数据库中，但是它并没有计算任何东西。

经过如上讨论，我产生了一个疑问：如果GPT-4解决科学问题的方法是不完美的，它能区分正确和错误的科学理论吗？这个答案取决于科学领域。在物理和数学领域中，我们通过与已知的物理定理及实验事实对比，可以很轻松地验证可疑的错误和伪科学理论的合理性。

我通过提问GPT-3.5和GPT-4一些物理和天文学中的经典前沿问题，对GPT-3.5和GPT-4是否能够基于物理公理和实验现象分辨伪科学理论进行了验证。两个GPT版本都表示，我们没有证据表明恒星周围有巨大的外星建筑；太阳系中所有行星排成一列并不意味着地球的灾难。

但是，当被问及一些受政治化或公共政策等因素影响的科学问题时，GPT-3.5或GPT-4更难做出正确回答。因为这些科学问题本身可能还在研究中，没有明确的答案。

总的而言，GPT-4和GPT-3.5能够正确地识别关于数学和物理学的错误表述。在回答更具争议的政治化科学议题时，GPT-4会不偏袒任何一方地进行回答，并且指出这不是一个已解决的问题。必应同样给出无偏见的答案，并且通过列举出相关的新闻和实验数据作为它的论据。当必应的人工智能面对质疑它的答案太片面的指责性攻击时，它采取了礼貌且不介入争执的明智策略。

这些结果初步表明，GPT-4能够对问题给出可靠的答案，并且有效抵御外界输入信息对于答案的影响。ChatGPT对于新冠疫情和气候变化等具有争论性科学问题的回答，以及对生物科学和其他主要科学领域的知识还值得进行进一步测试检验。

同时，ChatGPT回答科学和数学问题的答案并不完全可靠。霍奇森发现GPT-4在“为物理学（可能还有其他学科）问题提供创造性解决方案方面存在不足……它的智能仍然有些虚假。”即便如此，它对科学家也很有用。

霍奇森写道：聊天机器人可以“执行消耗着用户的宝贵时间的、不需要创造力的逻辑任务。”霍奇森表示，他使用ChatGPT辅助编写计算机代码，总结电子邮件和论文的内容，以及进一步将其应用在教育领域。但他指出，对于ChatGPT的任何产品，用户都应该仔细检查其给出的结果是否符合预期。

霍奇森对ChatGPT的评价让人想起计算机先驱道格拉斯·恩格尔巴特（Douglas Engelbart）对于智能设备的看法。恩格尔巴特希望简化人机交互过程，以便计算机的强大算力能够可以无缝赋能人类智慧——这个想法被称为IA（intelligence augmentation），“智能增强”，而不是AI（Artificial Intellgence），“人工智能”。

恩格尔巴特在1960s发明了计算机鼠标，改善了用户和计算机之间的人机交互体验。GPT-4在人机交互过程中能够给使用者提供持续反馈，并进一步提高用户使用计算机的能力。

因此可以预见，ChatGPT这类自然语言聊天机器人程序的发展是变革人机交互范式的另一个重大突破口——这种智能程序能够实现人与计算机的双向交流。在真正的AI出现之前，将GPT-4作为一项智能增强辅助工具能够实现使用者和智能程序的互惠互利。

原文链接：What Does ChatGPT Know About Science?

本文来自微信公众号：中科院物理所（ID：cas-iop），作者：Dana Mackenzie，编辑：藏痴

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply