自去年11月30日上线至今,ChatGPT火爆全球,推出仅2个月就达到了月活过亿,成为历史上增长最快的消费者应用程序[1]。微软与谷歌两大AI巨头前不久刚上演了“神仙打架”的戏码,百度、阿里、腾讯等国内科技巨头也不甘示弱,均表示已在AIGC赛道有所布局,欲与ChatGPT试比高。01

我们离“生物版ChatGPT”有多远?

既然ChatGPT能够一键生成全新的语句,我们是否可以模仿其原理,做一款“生物界的ChatGPT”呢?实际上,生物大分子也可以看成用遗传密码撰写的语句,特别是蛋白质,与自然语言存在高度的相似性,这促使人们探索用自然语言处理(简称NLP)技术对蛋白质的序列信息进行编译,构建蛋白质语言模型,为打造“生物版ChatGPT”奠定基础。

ChatGPT生成的语句可以“以假乱真”,让用户以为对话框的另一端是人类,同理,“生物版ChatGPT”生成的蛋白质也必须“以假乱真”,和经过数百万年进化的天然蛋白质除了“长得像”(拥有典型的二级结构)之外,还必须在实验中表现出天然蛋白质应有的特性(可表达、在溶液中稳定存在、能够行使一定的生物学功能等)。那么,我们离这样的“生物版ChatGPT”有多远?

去年12月,Meta AI利用其基于2.5亿条天然蛋白质序列搭建的预训练语言模型,生成了228条蛋白质序列。经湿实验验证,其中152条(67%)序列能够进行可溶性表达,且蛋白序列的新颖性极佳,证明了该预训练语言模型能够学习到蛋白质深层次“语法”和结构的信息,并具有泛化生成新颖蛋白质的能力[2]。

几乎是同一时间,Salesforce Research在Nature Biotechnology发布了利用ProGen模型进行蛋白质生成的工作。ProGen同样是一个生成蛋白质的语言模型,不同的是加入了蛋白质的属性标签,以实现特定类别蛋白质序列的可控生成。湿实验结果显示,该模型生成的具备特定属性的蛋白序列多样性强,与天然序列的相似度可以低至31%,同时表达率与天然序列接近(72%),并且通过语言模型生成的酶能够展现出与天然酶相似的活性[3]。

这些突破性的工作层出不穷,无一不预示着“生物版ChatGPT”即将来临。而作为产业落地应用最直接的场景,大分子药物,特别是抗体等蛋白类药物的研发能否从中受益,是各位从业者普遍关心的问题。从这个角度讲,上述工作还有一定差距,一是没有满足常规的以靶点为对象的药物设计理念,二是没有纳入对多种成药性目标(如免疫原性、理化性质)的考量。也就是说,上述技术可以一键生成接近“天然”、可以正常折叠表达的蛋白,并使其符合某种宽泛要求(如具备溶菌酶活性),但这些AI生成的蛋白还不足以成药。

02

“生物版ChatGPT”能一键生成大分子药物吗?

晶泰科技作为AI药物研发的先行者,在充分理解大分子药物研发流程的基础上,自主开发了大分子药物De novo设计平台XuperNovo®,该平台包含了一系列大分子药物从头设计策略,其中一款策略在内部被称为“ProteinGPT”,其技术路线与ChatGPT相似,可以一键生成符合要求的蛋白药物。

目前,ProteinGPT已经正式应用在晶泰科技的各类大分子药物项目中,下面展示3个真实应用案例:

应用1:根据给定的靶点一键生成Binder蛋白

(上图将ProteinGPT的使用过程用ChatGPT的风格进行了展现,除序列信息为示例外,实际交互过程和实验结果均来自内部真实项目,下同)

实验人员随后对上述15条蛋白进行了表达和测试,其中9条(60%)表达成功,而这9条全部可以结合靶点X,部分湿实验结果如下:

▲ 图1. 根据给定的靶点一键生成Binder蛋白的湿实验结果

可见,ProteinGPT以60%的成功率完成了上述binder生成任务。考虑到任务的难度——首先需要生成可正常折叠表达的蛋白,其次还需要结合特定的靶点和表位——这一表现堪称惊艳。

应用2:根据指定要求一键生成抗体文库

实验人员随后从ProteinGPT生成的文库中随机选取了26条,其中25条得到表达(表达成功率96.1%)。随后,加入了3条前人发现的具有良好性质的人源VHH抗体作为阳参,对这28条抗体进行了测试。湿实验结果如下:

▲ 图2. 28条序列的表达量数据(灰色是阳性参照序列,绿色是AI生成序列,下同)

▲ 图3. 28条序列的疏水性数据

▲ 图4. 28条序列的Humanness Score

可见,ProteinGPT生成的AI序列:

表达成功率96.1%,大幅超过行业平均水平;

59.6mg/L的平均表达量大幅超过阳参序列37.1mg/L的平均表达量;

80%的AI生成序列与阳参序列的HIC保留时间相当,疏水性满足成药要求;

免疫原性在行业通用的评估算法下大幅优于阳参序列。

考虑到这些AI序列都是机器生成的自然界不存在的蛋白序列(天然的人源VHH抗体不存在),这些抗体能够通过初步的成药性评估已属不易,未来的成药潜力值得期待,晶泰也正在构建该文库的过程中,未来将用该文库赋能双抗、纳米抗体药物开发。

应用3:对性质欠佳的抗体进行改造,一键生成优化后的抗体

实验人员随后对这10条序列进行了表达和测试,湿实验结果如下:

▲ 图5. 针对热稳定性的序列生成的湿实验结果(灰色是待改造序列,绿色是AI生成序列,下同)

▲ 图6. 上述序列的表达量湿实验结果

可见,ProteinGPT生成的序列中有9条(90%)实现了热稳定性的提升,其中有4条实现了“Tm提升到72℃”的目标。在表达量方面,10条序列中有7条优于原序列。最终,项目人员选择了热稳定性和表达量均得到提升的抗体继续推进下游开发。

03

ProteinGPT“一键成药”背后的秘密

ChatGPT之所以智能,是因为其同时利用了海量的无标记文本数据(自监督预训练)和规模略小、但质量较高的标记数据(基于人类反馈的强化学习,RLHF),并在训练方式和模型架构上做了诸多创新。同理,在训练ProteinGPT的过程中,晶泰也使用了无标记的蛋白质序列数据(约2.8亿条)+抗体序列数据(包括公开数据集中的数十亿条+晶泰内部积累的抗体NGS数据),但这些仅仅解决了预训练的部分,高质量的标记数据,特别是与蛋白药物相关的标记数据是非常有限的,以抗体可开发性数据为例,常用的公开数据只有137条,构成了训练蛋白药物AI模型的最大瓶颈。

为了有效解决数据量短缺和数据质量不一的问题,晶泰科技率先提出“智能计算、自动化实验、专家经验三位一体”的创新思路,搭建了国内规模最大的“干湿融合”的大分子药物研发团队,包括近百名科学家和工程师。

其中,湿实验平台既可以通过杂交瘤、展示文库、Single B Cell等传统方式完成抗体药物从靶点到PCC的全流程研发,又可以通过高通量的实验平台为AI产生大量训练数据;计算团队除了AIDD外,还包括生信和CADD团队,可以通过NGS4AI、MD4AI等方式为AI贡献更多的训练数据。

最后,作为国内最早投身AI药物研发的企业,晶泰已经积累了超过8年的经验,在内部形成了AI算法向产业转化的一套最佳实践,在很短时间内为ProteinGPT找到了最佳的落地应用场景。

▲ 图7. ProteinGPT的模型

自去年以来,晶泰科技内部的自动化能力开始走进公众视野,成为放大其AI数据优势的关键。除了将自动化运用于化学合成、晶型研究外,晶泰也在大分子药物方向部署了高通量的抗体筛选平台(如下图所示)。相较于传统的人工筛选,该平台的筛选通量可提高1~2个数量级,能够为内部AI模型贡献更大规模、更高质量的训练数据。

目前,晶泰在大分子领域的多个AI算法均已达到SOTA水平(State of the Art,AI术语,指在公开测试集上取得全球最佳表现),而内部人员将其中相当一部分归功于晶泰在内部生成数据上的优势。Automation4AI,正日渐成为打造“生物版ChatGPT”的重要引擎。

▲ 图8. 晶泰科技高通量抗体筛选平台SUMMARY小结与展望ChatGPT的成功并非一蹴而就,OpenAI自2018年开始研发GPT模型到2022年11月正式上线,历时四年半的时间。GPT模型从1.0版本迭代到3.5版本,成为全球预训练大语言模型的霸主,而加入少量人工标记数据、采用基于人工反馈的强化学习后,ChatGPT横空出世,实现了更为精准、自然的文本生成,将人们对AI的惊喜和期待又带上了一个台阶。在上述技术发展的同时,生物界的GPT们也在默默汲取着来自NLP领域的营养,并在生物相关的应用上开辟出了一片天地。从早期专注于预训练大语言模型,到近两年加入更多的标记数据、完成更加定向的生成任务,生物版GPT也经历了相同的演化路径,并在药物研发这一重要领域获得了可喜的突破。展望未来,要获得更加通用、好用的DrugGPT、AntibodyGPT、mRNAGPT等模型,我们还需要更多领域相关(domain-specific)的数据积累和算法创新。同时,由于相关方向跨学科的性质,我们需要把生物学家、化学家、AI科学家和软硬件工程师放置在一个屋檐下,通过快速的迭代试错,找到行业痛点和技术能力的交集,让AI技术尽早造福人类生命健康。如果您对晶泰科技的XuperNovo®、ProteinGPT等平台感兴趣,希望探索AI在大分子药物中的应用潜力,请联系 bd@xtalpi.com。如果您是AI或大分子药物研发的从业人员,愿意加入我们用AI变革药物研发的远大征程,欢迎投递简历至 career@xtalpi.com

参考文献:

[1] Sensor Tower数据

[2] Verkuil R, Kabeli O, Du Y, et al. Language models generalize beyond natural proteins[J]. bioRxiv, 2022: 2022.12. 21.521521.

[3] Madani A, Krause B, Greene E R, et al. Large language models generate  functional protein sequences across diverse families[J]. Nature  Biotechnology, 2023: 1-8.

 END 

↓ 点击二维码长按关注公众号 

点一下“在看鼓励自己在成长路上多前进一步

Leave a Reply

Your email address will not be published. Required fields are marked *