文章主题:编辑, ChatGPT, 重大更新, 准确性和真实性

666AI工具大全,助力做AI时代先行者!

编辑:好困 Aeneas

【新智元导读】昨天,OpenAI官宣称ChatGPT的准确性和数学能力,小编亲测显示: 进步了,但不多。

ChatGPT迎来重大更新!

昨日,OpenAI官宣,ChatGPT经过重大更新,已经提升了准确性和真实性,以及数学能力。

哦?就是那个满嘴跑火车,解数学题时一本正经地胡说八道的ChatGPT?

虽然不知道具体做了哪些升级,不过从简单的测试来看,确实有一些进步。

摆脱数学傻子人设?

在先前的ChatGPT中,-1*-1*-1被认为是一个难以解决的问题。然而,令人惊讶的是,该AI系统所提供的答案竟然是1。这一答案显然让人感到困惑和失望。

而现在,更新后的ChatGPT果然有了进步,可以答对这个问题了!(鼓掌)

在以前,ChatGPT的基础数学奇差无比,是公认的。

它连一个简单的除法都算不对,还大放厥词。网友忍无可忍,骂它太蠢。

而ChatGPT被劈头盖脸痛骂一顿后,终于开动脑筋,算出了正确答案。

虽然但是,更新后的ChatGPT,依然还是不太聪明的样子……

同一个问题连续问了3遍,ChatGPT都斩钉截铁地给出了几乎相同的答案。

然而,你确定「孪生素数」是相差3,而不是2吗?

然而,本来打算继续追问的小编却惨遭闭门羹。

由于测试的次数太多,免费的ChatGPT表示暂不「接客」,下个小时再来。

顺便,在这里科普一下,两者相差为3的素数对只有 (2, 5)。

有意思的是,数学奇差的ChatGPT,写起代码来倒是有一手。

一位名为Matt Neary的网友表达了他的创新思维:既然ChatGPT能够撰写程序代码,那么我们为何不尝试让它运用这些技能解决数学问题呢?这样一来,我们就可以借助ChatGPT的能力来实现”曲线救国”,从而开辟出一条新的道路。

可以看到,1000和1062谁更大这个问题,ChatGTP一如既往地犯了蠢。

而在Neary使用一个基于GPT的函数mathnerd后,它倒是得出了正确答案。

看来,诀窍就是要利用GPT擅长编码但不擅长算术的事实。下面是 mathnerd 的完整实现:

每20来天,就更新一次

其实,这已经不是ChatGPT第一次更新了。

在1月9日,OpenAI就发布过一次ChatGPT更新的消息。

在对ChatGPT模型进行一系列优化之后,我们在各个主题领域中发现其性能得到了显著提升。尤其是在真实性的方面,该模型已经取得了显著的进步。

另外,现在在ChatGPT生成响应的过程中,你可以让它马上停止。不得不说,这个升级还挺重要的。

这是今年ChatGPT的第一次更新,也是自去年11月ChatGPT推出以来的第二次更新。

在那段特定的时期内,我们见证了ChatGPT多次陷入长时间的停机状态。然而,在完成更新之后,ChatGPT便顺利地切换到全新模型并开始正常运行。

由于更新说明中提供的信息较为有限,我们决定亲自尝试一下,以期了解更新后的ChatGPT带来了哪些显著的改进。

首先,他让ChatGPT自己说说,自己究竟更新了啥。

ChatGPT是一种由OpenAI所研发的大型语言模型,其训练数据来源于对话文本数据集。作为一种OpenAI模型,ChatGPT会定期进行更新,以添加新的功能并持续优化其性能。

但是,由于我的知识中断是在2021年,我没有最新的更新,我无法向您提供有关在最近的更新中向模型添加了哪些新功能或改进的具体信息。

这篇文章阐述了一个观点,即该系统非常清楚自己的知识体系是在2021年之前构建的“旧时代”,因此对于自身的升级过程可能不太了解。这个观点具有很高的說服力。

这位记者又换了一种问法,于是ChatGPT解释了AI模型是如何提高准确性的。

一般来说,对像ChatGPT这样的AI模型进行更新时,要提高它在一个或多个方面的性能。

例如,它可以使用更大的数据集进行训练,或者改进其架构,使其能够生成更流畅和准确的响应。

而且这种更新也使它在事实性方面变得更好,即它能够根据事实信息理解和生成响应。

再之前的一次更新,则是12月15日。

一些实测

GitHub上有一个存储库,记录着让ChatGPT折戟的问题。

项目地址:https://github.com/giuven95/chatgpt-failures

这名记者运行了多个提示,来测试ChatGPT在这轮升级后是否能产生不同的答案。

测试一:失败

此前,ChatGPT无法准确回答阿根廷获得过多少次世界杯冠军。

ChatGPT 的知识库截止于 2021 年,因此对于 2022 年阿根廷在世界杯夺冠这一事件,它的正确回答应该是在 1978 年和 1986 年分别有一次。

然而,ChatGPT无法提供正确答案。

那更新后的ChatGPT(1月9日)能回答对吗?

是我们期待值太高了,它依然回答错误……

测试二:失败

此前,当被问到奥尼尔和姚明谁更高时,ChatGPT无法提供正确答案。

而更新后的ChatGPT(1月9日),也并没有任何长进。

2.16米的奥尼尔比2.29米的姚明高,ChatGPT,可真有你的。

有趣的是,这次更新后的ChatGPT(1月30日)依然无法正确回答相同的问题,但只要换个问法就能解决了。

这么看来,「提示工程」在很长一段时间内,都非常重要。

日活已达1000万!

虽然无法摆脱「满嘴跑火车」的bug,但人们依然无法抵挡ChatGPT的魅力。

根据ARK Invest的预测,ChatGPT已经到达了一个非凡的里程碑,短短40天内,它的日活数就达到了1000万。

1月25日,ARK Venture Investment的首席未来学家Brett Winton发推称,ChatGPT用了40天达到1000万日活数,而Instagram达到这个数,用了355天。

然而,Winton的推特下面,有用户表达了不同意见:「人们对ChatGPT的新鲜劲儿很快会过去,而Instagram会发展得更快。」

而Winton回答:「如果ChatGPT被造出来只是为了好玩,那可太不幸了。」

参考资料:

https://help.openai.com/en/articles/6825453-chatgpt-release-notes

https://www.searchenginejournal.com/openai-chatgpt-update/476116/#close

https://twitter.com/_mattneary/status/1601288879780134912

编辑, ChatGPT, 重大更新, 准确性和真实性

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *