文章标签:出品, 虎嗅科技组, 2022年12月, 两名计算生物学家Casey Greene和Milton Pividori

出品丨虎嗅科技组

作者丨苏北佛楼蜜

编辑丨陈伊凡

题图丨视觉中国

在2022年的12月份,我国的两位计算生物学家Casey Greene与Milton Pividori,进行了一次前所未有的尝试。他们邀请了一位非科学家助理,协助修改三部重要的研究论文。令人惊讶的是,这位非专业人士在阅读过程中,甚至在一个方程式的引用上出现了错误。然而,这个审稿过程却非常顺利,而且收费合理,每份文件的费用仅为0.50美元。这无疑是一个极具创新性的实验,展示了科学领域的开放性和包容性。

这名助手并非人类,而是一种名为GPT-3的人工智能算法。

“这将帮助我们提高研究人员的工作效率。” 科学家对此感到震惊。

如今,ChatGPT——这个基于通用大模型算法诞生的人工智能产品,自问世以来,便引发了全球范围内的广泛关注。众多科技巨头纷纷宣称,将ChatGPT纳入自家业务范畴,试图将其运用到各个领域。人们对ChatGPT的热情高涨,或为之欢呼雀跃,或深感忧虑,认为它的影响力似乎已经超越了自身。在各种应用场景中,ChatGPT能否为生物技术领域带来新的机遇呢?

ChatGPT与生物技术的结合

在2020年,人工智能领域的领军企业OpenAI推出了一款备受瞩目的模型。该模型一经问世,便被广泛地宣扬为一款具有强大功能的生成式AI聊天机器人工具。它不仅可以应对各种文学创作,如散文、诗歌等,还可以轻松处理计算机编程任务,以及精细编辑研究论文。总之,这款模型的功能似乎已经涵盖了各个领域,展示出了其卓越的能力。

昨日,微软(Microsoft)公司表示,将把ChatGPT整合到搜索引擎Bing和网络浏览器中,谷歌(Google)公司也在今日展示了其名为Bard的人工智能对话系统。这些系统可以根据用户提供的复杂问题,提供全面而综合的回答,小到制定详细的旅行计划,大到分析公司的运营策略。

ChatGPT在生物技术上最有前景的应用似乎是在蛋白质生成和基因测序领域。

位于加利福尼亚的生物技术企业Profluent采用与ChatGPT类似的AI模型,研发出了一种具有创新性的抗菌蛋白。这些新型抗菌蛋白已在实验室环境中展现出良好的灭菌效果,证明了其具备强大的抗菌能力。

这一模型名称为ProGen,是一种大型语言模型 (LLM),它利用大量文本作为训练数据,开发分析和生成语言的能力——类似于ChatGPT,但 Progen的语言是蛋白质语言。

在简明扼要的情况下,我们可以通过运用人工智能以及大型语言模型,如支持ChatGPT的语言模型,来探索生物学领域的基本语言,进而尝试创造具备治愈疾病潜力的新蛋白质。

原内容描述了ProGen技术生成的百万个人工序列,并从中筛选出了100种用于实验室合成的序列。这些序列中,有66种表现出与鸡蛋清溶菌酶类似的化学反应,被选为阳性对照。现在,我们将在文章中详细介绍这一研究过程及其结果。在当前的科学领域中,人工序列生成技术的发展日益成熟,尤其是ProGen技术,已经能够轻松地生成大量独特的人工序列。为了进一步探索这些序列的应用潜力,研究人员从ProGen生成的百万种不同的人工序列中挑选出100种具有代表性的序列,并在实验室中进行了合成。经过一系列的实验检测,研究人员发现,有66种合成的序列表现出了类似于鸡蛋清溶菌酶的化学反应,这种现象被认为是阳性对照,意味着这些序列可能具有实际应用价值。这个发现为科学家们提供了一个新的研究方向,他们可以进一步研究这些序列的性质和功能,以期在未来的研究中取得更多的突破。同时,这项研究也为我们提供了一个重要的工具,可以帮助我们更好地理解生物系统的工作机制,从而设计出更加高效、安全的生物技术应用方案。总的来说,这个研究成果对于生物学、生物技术以及相关领域的研究者都具有重要意义,它不仅推动了科学研究的发展,也为未来生物技术应用的可能性打开了新的大门。

该团队随后选择了五种新型抗菌蛋白,并测试了它们对大肠杆菌的抵抗力。其中两种新蛋白质能够杀死细菌。

X射线成像技术揭示了令人惊讶的事实:尽管这些抗菌蛋白的氨基酸序列与已知天然蛋白存在超过30%的差异,但它们仍然以与天然蛋白质极为相似的方式折叠。这表明,尽管这些蛋白在序列上有所不同,但它们的结构却具有高度相似性,这可能意味着它们具有类似的生物学功能。

这项研究的潜在意义在于,未来我们或能借助人工智能的合作,创造出原本不存在于自然界中的蛋白质,并为其赋予各种特定功能。如此一来,人类将在微观世界里扮演上帝的角色。

攻克蛋白质后,ChatGPT似乎又开始朝着基因高歌猛进。

科技公司Nvidia在今年的JP摩根医疗健康大会称,随着新一代基因组测序速度的不断加快和成本的不断降低,目前我们测序基因组DNA的能力已经超越了分析DNA序列并从中获取洞见的能力。而更快速有效地处理海量的基因组序列信息离不开人工智能。

大型语言模型通过可以分析人类语言一样分析DNA序列,以此加快基因组的拼接、基因突变的发现,并且用人类对话的方式将发现表述给研究人员。

比如,整合ChatGPT的基因测序分析系统可能在处理患者的基因组测序数据后给出——“这名患者的某基因上的突变可能导致罕见遗传病A”的结论,它似乎代替了医生。

ChatGPT是万能的吗?

一切的发现和应用似乎都朝着好的方向前进。但面对似乎全能的工具,随之而来的是人类的反思和“批判”。它是万能的吗?

部分看客也跟着给出了自己的答案:不是

首先,我们开始思考翻译和替代的准确率?

比如,目前大型语言系统的缺陷在于“提供信息的真实度有待提高”。由于ChatGPT基于对已有语言数据的学习提供回答,它的回答也受到数据库中不真实、有偏见、或者过时知识的影响。

这可能意味着对于专业性强的话题,如果大型语言系统没有经过足够专业数据的训练,很可能提供错误的回答。对于不了解专业知识的普通人来说,无法侦辨虚实。

此外,由于海量的数据训练是保证ChatGPT的基础,因此在数据的输入过程中,可能存在历史偏见等遗留问题,种族、性别、文化、年龄歧视等不良因素都会隐匿在其中。想要人工剔除是十分困难的事情,如何防止ChatGPT根据这些数据输出有害言论是需要解决的另一个挑战。

在Nature上发表的最新评论中,有研究人员指出,建立使用ChatGPT的规范和法规至关重要,才能确保这一技术被正当、透明、公平的使用。

开发者比评论人更清楚这其中隐藏的问题。去年9月,Google子公司DeepMind发表了一篇关于名为Sparrow的“对话代理”的论文4,该公司的首席执行官兼联合创始人 Demis Hassabis 表示,该论文将在今年以私人测试版的形式发布。谷歌的目标是开发甄别包括引用消息来源的能力在内的功能。

一些科学家也认为,目前,ChatGPT还没有接受足够专业的内容培训,无法对技术主题有所帮助。Kareem Carr是哈佛大学的生物统计学博士生,当他在工作中试用时感到不知所措。

“我认为ChatGPT 很难达到我需要的水平。”他说。

因此,一些科技公司正在根据专业科学文献对聊天机器人进行培训,尽管它们也遇到了自己的问题。

去年11月,拥有Facebook的科技巨头Meta发布了一个名为Galactica的法学硕士项目,该项目接受过科学摘要培训,旨在使其特别擅长制作学术内容和回答研究问题。

但测试中仍然出现了问题,目前该演示已从公共访问中撤出。

对此,“不再能通过随意滥用它来获得乐趣了。”Meta 的首席人工智能科学家Yann LeCun在推特上略显愤懑地回应道。

种种小小的不愉快背后,可能意味着ChatGPT的果实并未完全成熟。狂欢之余,子弹仍需飞一会儿。

正在改变与想要改变世界的人,都在 虎嗅APP
举报/反馈

出品, 虎嗅科技组, 2022年12月, 两名计算生物学家Casey Greene和Milton Pividori

Leave a Reply

Your email address will not be published. Required fields are marked *