大型语言模型(LLMs)通过ChatGPT等工具向人们展示了其处理复杂问题的潜力。那么,这种AI技术在化学领域的应用表现又如何呢,不妨通过与ChatGPT进行对话,来考察它是否真的可以理解化学家们的所思所想吧。

大型语言模型是利用机器学习算法生成文本的AI工具。它们能够猜测或预测单词,并创建反映人类写作和口语表达方式的短语、段落和完整文章。LLMs最近因使用包括数十亿个单词数据集的数据集开发了强大的训练模型,而重塑了自然语言处理。这些模型还使用复杂的算法进行训练,使其能够学习其上下文和自然语言。LLMs是输入具有部分屏蔽或模糊的文本摘录,神经网络尝试预测缺失的元素,然后将预测与原始文本进行比较。神经网络通过迭代执行此任务,根据输出调整参数。最后,这个神经网络建立了一个模型,说明了单词在句子中相互关联的方式。LLMs是许多不同应用的强大和灵活的工具,并可能包括对化学的理解。

一些有趣的LLMs工具最近相继问世。

图灵NLGm,是由微软在2020年初发布和开发的。它使用了迄今为止最大的数据集,拥有170亿个参数!

Gopher,是由DeepMind开发的拥有2800亿参数的模型。它在STEM学科方面表现出色,这是LLM能够理解化学的第一个线索。

GPT-3,由OpenAI公司开发,它是通过公开可用的约570GB文本信息数据集进行训练得到,GPT-3发布了一个能够重建包括计算机代码在内的几乎任何语言结构的最大神经网络之一。

Galactica,是由Meta公司发布的开源LLM模型,他们希望通过它来改善公司形象以应对批评。然而,不久后Meta决定不向公众展示其模型,理由是它可能无法像用户希望的那样有效工作,或者不符合必要的道德准则而进一步受到批评。

LLMs的运用的确存在盲点,特别是在构建一些模型所使用的数据没有经过矫正的时候,因此才有人戏称目前大火的ChatGPT在某些情况下是在一本正经的胡说八道。

LLM对其分析或生成的文本的理解是有限的。如果LLM在训练中捕获了错误值,它可能在被问及时回答这个值。生成的答案可能是表面上有效的,但LLM没有推理或表达有关主题的理解能力。从这个角度来看,如果被问及一个物理或化学性质,LLM可以回答有关化合物的相关性质,然而这些回答也行来源于并未矫正过的数据,或者一些不是那么可靠的文献。

本文将使用OpenAI的 ChatGPT来进行一些基础的测试,ChatGPT的训练模型使用了具有化学方程式和常见计算知识的InstructGPT模型。这个测试可能不适用于其他的语言生成模型,因为ChatGpt设定了一些特定的控制参数,比如温度是控制GPT-3引擎输出的最重要设置之一。它控制生成文本的随机性。

测试1:将化合物名称和SMILES的转换

对于ChatGPT,即使是对于简单的烷烃和烯烃,将化合物名称转换为SMILES化学表示法也是一个困难任务。在这个测试中,ChatGPT的正确率约为27%。对于4到10个碳原子的较大的直链、支链、环状或芳香族烃化合物,ChatGPT模型的混淆情况很多。它不理解烷烃和烯烃,苯和环己烯,也不理解顺式异构体和反式异构体之间的区别。有趣的是,它会添加不存在于该分子中的卤素或氧原子。几次尝试表明,ChatGPT模型也行并不具备化学天赋!

表1. ChaGPT在名称和SMILES号转换测试中的表现(绿色正确)

测试2:查询化合物的脂水分配系数

比较实验测试的辛醇-水分配系数(log Pexp)与ChatGPT在文献中找到的值(log PChatGPT)进行比较(表2),ChatGPT模型找到了化合物属性的合理值,有时比使用生物信息学工具找到的值要好得多。其平均相对误差约为31%,在这轮测试中ChatGPT表现亮眼!

表2.ChatGPT给出的化合物Log P值和实验值比较

测试3:查询化合物结构信息

在表3为ChatGPT描述化合物几何构型的正确率,12个化合物中,ChatGPT模型对其中5个配位化合物作出了正确的预测。如果化合物K3 [NbOF6]和(NH4)2Ce(NO3)6的确是都是不同类型的八面体,则ChatGPT模型的命中率为58%,对于这些不常见的化合物结构的准确预测,表明ChatGPT在给出化合物结构信息上的表现良好。

表三.ChatGPT在分析化合物结构信息上的表现,绿色为正确

测试4:聚合物的水溶性预测

ChatGPT模型正确预测了11种聚合物的溶解度(表4),这些聚合物在工业和学术界具有重要应用。虽然这些化合物仅从结构上就能很快判断其水溶性,但是ChatGPT给出的关于某个情境的预测显得较为可靠。

表4. ChatGPT预测化合物水溶性表现

测试5:化合物点群预测

化合物的点群(point group)指的是化合物所具有的对称性群,即该化合物的所有对称操作组成的群。它是定义分子的几何构型和光谱性质的基础。ChatGPT模型在简单分子化合物的10个分子点群中有6个正确的预测(表5)。如使用复杂分子问这些问题,命中率可能小于60%。

表5. ChatGPT预测分子点群的测试表现

总结

上述测试表明,ChatGPT回答化学问题的准确率在25%至100%之间,准确率高低取决于几个重要因素:合理的提示容易获得正确的答案,热门的研究领域问题很容易回答,对于数据库中未包括或模型训练不足的非常特定的问题,准确率较低。

令人失望的是,从SMILES表示法到化合物名称的转换,以及相反方向的转换,准确率如此之低。存在的问题有答案有时会漏掉或添加甲基基团,添加不存在的原子,混淆常规环和芳香环,或者不理解同分异构体。当然在其他几个测试中ChatGPT的表现可圈可点。

总的来说,ChatGPT等LLM工具给人们展示了在特定领域的巨大发展潜力。实验化学家和计算化学家都不应该害怕LLMs的发展。任务的自动化并不应该降低实验或计算化学家手和创造力的需求。相反,应该将许多激动人心和更好的人工智能工具集成到研究中,以扩展和解决长期挑战研究者的复杂问题。

参考文献:Castro Nascimento C M, Pimentel A S. Do Large Language Models Understand Chemistry? A Conversation with ChatGPT[J]. Journal of Chemical Information and Modeling, 2023.

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注