文章主题:人工智能, ChatGPT, GPT-3.5, 蛋白质工程
自从ChatGPT大受欢迎,人工智能领域迎来了爆发式发展。这一先进的语言模型不仅具备撰写诗歌、编写代码的能力,还能创作剧本、设计面试题目以及发表学术论文,展示了令人瞩目的生产力突破。
ChatGPT引起了大厂、投资人、学界、业界各领域人士的关注。AI公司全面入局,引发了资本市场震荡……生物医药领域是否能和这类新兴技术结合?目前都有哪些应用?
ChatGPT及其原理的介绍
ChatGPT是一款对话式AI模型,可根据用户输入的文本,自动生成回复内容,属于“生成式AI模型”,强调学习归纳后进行演绎创造,生成全新的内容。与之相对应的是此前已得到广泛应用的“决策式AI模型”,可根据已有数据进行分析、判断、预测,典型应用为短视频、购物平台上的内容智能推荐。
ChatGPT 是基于 GPT-3.5 模型微调而来的人工智能助手,它特别注重对话场景的优化,并具备记忆能力,能够进行连贯的对话。作为一种生成型预训练变换模型(Generative Pre-trained Transformer),GPT 在解决自然语言处理(NLP)任务方面具有丰富的经验。
在探讨ChatGPT的发展轨迹时,我们需要将其置于历史的坐标中,以理解它如何成为现代人工智能领域的佼佼者。事实上,ChatGPT并非一夜之间崛起,而是历经了四次迭代的成果,堪称机器学习、神经网络与Transformer算法这一黄金组合的完美体现。
ProGen:生物界「ChatGPT」
首次实现从零合成全新蛋白
最近,一家名为Profluent的初创公司成功地利用深度学习语言模型研发出一种不存在于自然界的全新蛋白质,这一突破性的成果极大地推动了蛋白质工程领域的研究进展。值得注意的是,这是Profluent公司自成立以来所取得的第一个重要成果,也预示着该公司在未来可能在生物科技领域取得更为突出的成绩。
科学家们采用类似ChatGPT的蛋白质工程深度学习语言模型——ProGen,首次实现了AI预测蛋白质的合成。这些蛋白质不仅与已知的完全不同,相似度最低的甚至只有31.4%,但和天然蛋白一样有效。目前,这项工作已经正式发表于Nature子刊。
Profluent公司的创始CEO Ali Madani透露,我们已经成功设计出多个家族的蛋白质,其功能与样本蛋白(exemplar proteins)相当,均为高度活性的酶。这一成就的背后,我们付出了巨大的努力,尤其是在 zero-shot 的技术上取得了突破。zero-shot 技术意味着我们没有进行多轮优化,更没有湿实验室的数据支持。然而,我们的最终成果——这些经过设计的蛋白质,却是通常需要数百年时间才能自然进化出来的高活性蛋白质。
ProGen是一款拥有120亿参数条件的蛋白质语言模型,该模型采用了Transformer架构,利用自注意机制来模拟蛋白质中残基之间的互动。此外,它还可以根据给定的输入控制标签来生成不同跨蛋白质家族的人工蛋白质序列。值得一提的是,ProGen的算法与ChatGPT背后的模型GPT-3.5具有相似性,它们都通过学习氨基酸组合成现有蛋白质的语法,从而掌握生成新蛋白质的方法。
Madani表示:“就像ChatGPT学习英语之类的人类语言一样,我们是在学习生物和蛋白质的语言。”值得注意的是,还有一些初创公司也在尝试相似的技术,比如Cradle,以及Flagship Pioneering的Generate Biomedicines等。
BioGPT:提高科研效率的得力工具
随着科学技术突破,研究人员对大量生物医药文献采用了多种机器学习技术,在各大生物医药出版物及科研论文中使用文本挖掘和信息提取,对开发新药物、临床治疗、病理学研究至关重要。从这些海量材料提取有意义的信息,就是BioGPT发挥作用的地方,它在科学文献网站PubMed上超过1500万篇摘要的庞大语料库上进行了预训练,可以根据用户的提问迅速提供相关的答案。在PubMedQA检测中,这款人工智能模型达到81.0%的准确性。
通用语言领域中预训练模型主要有两个分支——GPT和BERT及其变体,BERT在生物医药领域受到的关注最多,比如BioBERT和PubMedBERT是生物医药领域中最常受到关注的两个预训练语言模型。然而,BERT模型更适合理解任务,而不是生成任务。而微软研究人员推出的BioGPT使用了六项生物NLP任务来评估语言模型,其中包括问答、文档分类和端到端关系提取。能够帮助我们大幅度提高从科学文献中获得信息的速度。
火爆之下,仍有隐忧
虽然ChatGPT或类似的语言模型能在生物医药领域能够得到广泛应用,但仍有隐忧。首先,ChatGPT没有联网,因此并不能替代搜索引擎。它无法访问最新的事件进展,因为其当初在进行模型训练时,数据只更新到2021年,而科研技术日新月异,为了保持预训练语言模型在生物医药领域的准确性,需要实时更新数据或联网。其次,因为ChatGPT接受的是大量数据的训练,有时可能会生成包含冒犯性或不恰当语言的回复。这是利用训练数据生成文本的算法的局限性之一。例如科技媒体CNET曾曝出,ChatGPT编写的77篇内容中,41篇有错误,目前,平台已予以更正,并表示将暂停此种方式生产内容。
Nature也对此问题表达了重视,这家权威的学术出版机构表示,学研圈都在担心,学生及研究者们可能会以大型语言模型生成的内容当作本人撰写的文本,除却冒用风险外,上述过程还会产生不可靠的研究结论。
Nature针对ChatGPT代写学研文章、被列为作者等一系列问题,给了定性。具体来说,有两个原则。第一,任何大型语言模型工具(比如ChatGPT)都不能成为论文作者;第二,如在论文创作中用过相关工具,作者应在“方法”或“致谢”或适当的部分明确说明。
尽管ChatGPT没有彻底改变我们现有的生产方式,但其发展仍然是令人欣喜的。人工智能对生物医药领域的介入不仅有望帮助诊断重大疾病,而且能够提高研发的效率,如何正当的使用新兴工具,将决定我们的未来。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!