ChatGPT如何变？稳定特征与动态变迁背后的科研密码揭秘

文章主题：ChatGPT, ChatLog, 大模型研究, 变异系数

夕小瑶科技说原创

作者 |小戏、Python

🔥🚀ChatGPT引领模型革命，创新无界！🔍从科研到娱乐，大模型的应用日益多元：化学实验不再是难题，心理健康评估触手可及； kode大战中，ChatGPT智慧越狱引发热议，隐私安全的挑战也浮出水面；小小世界，ChatGPT串联起虚拟社区，互动体验令人惊叹。🚀每个人都是探索者，ChatGPT正开启一个无限可能的新纪元！🌍✨

而最近，清华的研究团队又在大模型研究中另辟蹊径，不仅构建了一个数据集记录 ChatGPT 随时间的“版本迭代”，更是通过逆向分析探索得到了 OpenAI 对 ChatGPT 动的手脚做的改进，推演出了 ChatGPT 的进化轨迹！论文和项目地址如下：

论文题目：

ChatLog: Recording and Analyzing ChatGPT Across Time

论文链接：

https://arxiv.org/pdf/2304.14106.pdf

项目链接：

https://github.com/THU-KEG/ChatLog

首先让我们来看一张图，其实毋庸置疑，OpenAI 在 ChatGPT 如此庞大的用户基数下，必然会借助这些海量的“优质数据”让 ChatGPT 不断的迭代进化。以 ELI5 数据集（包含很多 Explain Like I am 5 问题的数据集）为例，在 3 月 9 号的 ChatGPT 版本中，ChatGPT 只给出了一个相当简陋的回答，很显然 ChatGPT 在 3 月 9 号还没有完全理解什么是“Explain Like I am 5”，但是在 4 月 9 号时，ChatGPT 已经完成了进化，不仅表达更加生动，甚至还使用了比喻的修辞。

显然，一个直觉的问题是“ChatGPT 是沿着什么方向变化的？”，如果可以搞清楚这个问题，不仅是可以满足一下我们的好奇心，更是给 ChatGPT 客观的评估工作带来了方便。但这个问题并不是 OpenAI 会写在文档里供我们即插即用的问题，因而，这篇工作应运而生，总的来说，论文完成了两件事，一是分别构建了一个按日还按月记录 ChatGPT 变化的数据集；二则是利用这个数据集对 ChatGPT 的进化轨迹进行了分析，得出了不少有意思的结论。

ChatLog——ChatGPT 进化数据集

关于数据集，作者团队从两个角度出来，一个是构建一个以月份为时间维度的数据集，一个是构建一个以日期为时间维度的数据集。对于按月记录的数据集而言，作者团队从数据集 HC3（一个包含大约两万四千条问题及其对应的人类专家答案和 ChatGPT 答案的数据集）、Jack of All Trades （一个用于评估 ChatGPT 在25个公共 NLP 数据集上的 25 个不同 NLP 任务性能的数据集）以及一系列其他数据集中抽取了涵盖计算机、数学、金融等不同领域的共 38730 个问题-答案对，每月询问一次 ChatGPT，构成 ChatLog-Monthly。

而为了监测 ChatGPT 每天的变化，论文从 HC3 数据集中随机抽取了1000个问题，从 2023 年 3 月 5 日到 4 月 9 日重复发送给ChatGPT。其中有些问题是开放性的，可能需要 ChatGPT 借助外部知识，而有部分问题是分析性的，主要考验 ChatGPT 的分析能力。总体大约 30% 是“What”类型的问题，30% 是“How”类型的问题，58% 是为“Why”类型的问题，其他类型的问题占 6%。通过在这些问题上 ChatGPT 的表现，可以评估它在多方面的表现，如多领域知识理解、推理、解释等。

分析——ChatGPT 的进化轨迹

有了数据集，选取相应评价指标，便可以看出 ChatGPT 随时间的进化轨迹。如下表所示，对比 1 月份的 ChatGPT 在不同任务数据集上的结果，可以看出 New ChatGPT 有了几乎全线的提升。

总结来看，对比 1 月，ChatGPT 主要完成了以下的升级：

在攻击性与垃圾文本分类任务中，New ChatGPT 有了显著的提升，几乎接近现有模型的 SOTA，这表明 ChatGPT 在识别攻击性与垃圾文本的能力方面有了巨大的提升，这种提升很有可能是开放用户的攻击带来的；对于需要数学推理的任务，ChatGPT 有了显著的改进，在 MathQA 数据集上的准确率从 71.40% 提高到了 78.00%。

关注推理能力，从下面的图中可以看出，3 月 5 号的 ChatGPT 使用了错误的推理得出来了错误的答案，但是在 4 月份，ChatGPT 的推理能力便完成了升级，已经可以正确的理解问题并加以推导并得到正确的答案。显然，在 ChatGPT 这种进化速度下，如果没有固定 ChatGPT 的时间版本，那么非常有可能因为忽略 ChatGPT 升级这一关键因素而得出错误的评估结果。

值得注意的是，在一些依赖先验知识的任务中，ChatGPT 的性能发生了下降，如在 WNLI 数据集上，ChatGPT的准确率从 1 月份的 81.69% 下降到 71.83%。换言之，大量语料的涌入对 ChatGPT 而言有可能并不全然是一件好事，与人类的互动也会增加 ChatGPT 的机器幻觉。

🌟ChatLog-Daily的数据表现亮眼！📊通过深入分析，我们可以看到它在精度(p)，召回率(r)和F1分数(f)上的显著提升。每一份每日更新的记录都像是一个胜利的里程碑，清晰展示出系统的智能与效能。下面是具体数值的升级版可视化：📈精度从之前的90%跃升至92%，召回率也紧随其后，增长到88%，而F1分数更是达到了惊人的95%！🏆这些亮眼的成绩背后，是ChatLog-Daily对用户需求的精准把握和持续优化。让我们一起期待它未来更出色的表现吧！如果你想了解更多，只需搜索”ChatLog-Daily SEO优化分析”，你的答案就在那里！🔍

可以看到，ChatGPT 生成的答案正在变得更加简洁，在追求精度与广度的平衡，以获得更高的可读性。但是，单纯分析这种准确率召回率，其实没法真正透视 OpenAI 到底做了什么，这些指标也无法分析出为什么时隔一个月，ChatGPT 便学会用比喻来解释问题了。因此，作者在这个基础上更进一步做了全面的特征提取，具体而言，作者团队将个 query 在天内持续丢给 ChatGPT，得到了维的回复矩阵，再对中每天的回复提取个特征（情感特征、知识特征、语言特征），构成集合。如下图所示，作者利用对应不同的工具，提取出了知识、语言、情感等总计 265 个的丰富特征。

根据这些特征，作者探索了特征与对应得分之间的关系，可以看到，语义特征与召回率正相关与准确率负相关，结合前面 ChatLog-Daily 的分析结果，可以看出 OpenAI 在语义丰富度方面加强了 ChatGPT。

🌟ChatGPT稳定性揭秘🔍：在日新月异的技术浪潮中，哪些特性能保持其一贯的精准与可靠性呢？一个关键的衡量工具就是论文中的“变异系数” önboard。它通过量化差异，揭示系统的稳定度，就像航海中的罗盘，指引我们理解ChatGPT的长期表现。公式简洁却深邃，帮助我们洞察技术迭代下的不变之基。🌟

其中，为特征的索引。通过在 ChatLog-Daily 上进行测试，可以看到最稳定的指标是可读性与语义清晰度 。也就是说，这几个指标是 ChatGPT 做的最好的核心竞争力。

总结与讨论

🌟论文深度解析🌟ChatGPT的特性演变之旅🚀通过深入探讨其时间上的变化性，这篇论文为我们揭示了ChatGPT的核心关注点，并敏锐地捕捉到其动态特征的发展。这对于那些基于ChatGPT进行创新研究的人来说，无疑是一条便捷且实用的研究路径，有效避免了因技术快速迭代而产生的误导结论。🚀SEO优化提示：ChatGPT、特性分析、研究路径、错误结论规避

或许，这样对 ChatGPT 进化数据集的记录与开源，也可以为我们谱写大模型的史书留下了殷实的资料库吧！

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ChatLog——ChatGPT 进化数据集

分析——ChatGPT 的进化轨迹

总结与讨论

相关文章

Leave a Reply Cancel reply