ChatGPT在生物医药领域的语义魔力:零-shot实力大挑战,实体与关系的超凡探索?
AI与生物

ChatGPT在生物医药领域的语义魔力:零-shot实力大挑战,实体与关系的超凡探索?

《ChatGPT在生物医药领域的应用与挑战》自ChatGPT面世以来,医药领域掀起应用热潮,因其强大的语义理解和知识推理能力。研究发现ChatGPT的Zero-Shot能力在中文信息抽取,尤其是实体识别任务上表现出色,接近或超越领域fine-tune模型。然而,其在实体召回率和嵌套实体识别方面存在不足,如未完全识别"肿瘤干细胞分化"和处理复杂关系的能力有限。尽管如此,ChatGPT展现出强大的语义理解,能完成非连续实体提取和对齐任务,并在关系抽取中根据指令进行合理推理。然而,它的结果不稳定性及对于特定关系的解释能力有待优化,如不能准确识别"治疗关系"和提取完整生物过程实体,这些都可能成为其实际应用中的挑战。总体来说,ChatGPT为医药信息处理带来了革命性可能,但未来还需通过技术优化和领域适应来确保稳定、精准的抽取结果。
ChatGPT是生物医药发展的新机遇?专家解读:存在准确性等多个挑战,暂不建议直接用于制药领域
AI与生物

ChatGPT是生物医药发展的新机遇?专家解读:存在准确性等多个挑战,暂不建议直接用于制药领域

万物皆可 ChatGPT? 自去年 12 月(美国时间 11 月 30 日)发布以来,ChatGPT 火爆全球,不断刷屏。从写邮件、做食谱、写诗歌、精通十以内加减法,到写出较高水平的代码和论文,通过了商科、法学和医学院的研究生水平考试,再到 ChatGPT 成功通过了谷歌的面试,并拿到了年薪 18 万美元的 L3 工程师 offer…… 瑞士银行巨头瑞银集团的一份报告指出,推出仅两个月后,ChatGPT 月活用户已经突破了 1 亿,成为史上用户增长速度最快的消费级应用程序,更是成为一款“现象级”的 AI 产品。 ChatGPT 是 OpenAI 推出的一款对话机器人,也被视为有史以来最好的AI聊天机器人,本质上是一个大规模预训练语言模型。这是在自然语言模型 GPT-3.5(GPT-3 的升级版)的基础上进行调整、优化的产品,也是生成式 AI 工具。有业内人士将 ChatGPT 比喻为“搜索引擎+社交软件”的结合体,能够通过实时互动获得问题的答案。 (来源:OpenAI 官网) 生成式 AI 近期所取得的一系列新突破有可能彻底改变人们内容创作的方式,从编程再到视频、艺术、写作、游戏、数学计算到生物医药等等。 比尔·盖茨称,ChatGPT、 Bing 聊天机器人和谷歌的 AI 聊天机器人 Bard 等模型在全球范围内开启了一种新形式的革命。 蒙特利尔高等商学院计算机系的终身副教授唐建在《理解未来》科学讲座上表示,生成式...
生物版的”ChatGPT”,才是医药圈最值得关注的黑科技!
AI与生物

生物版的”ChatGPT”,才是医药圈最值得关注的黑科技!

自去年11月30日上线至今,ChatGPT火爆全球,推出仅2个月就达到了月活过亿,成为历史上增长最快的消费者应用程序[1]。微软与谷歌两大AI巨头前不久刚上演了“神仙打架”的戏码,百度、阿里、腾讯等国内科技巨头也不甘示弱,均表示已在AIGC赛道有所布局,欲与ChatGPT试比高。01 我们离“生物版ChatGPT”有多远? 既然ChatGPT能够一键生成全新的语句,我们是否可以模仿其原理,做一款“生物界的ChatGPT”呢?实际上,生物大分子也可以看成用遗传密码撰写的语句,特别是蛋白质,与自然语言存在高度的相似性,这促使人们探索用自然语言处理(简称NLP)技术对蛋白质的序列信息进行编译,构建蛋白质语言模型,为打造“生物版ChatGPT”奠定基础。 ChatGPT生成的语句可以“以假乱真”,让用户以为对话框的另一端是人类,同理,“生物版ChatGPT”生成的蛋白质也必须“以假乱真”,和经过数百万年进化的天然蛋白质除了“长得像”(拥有典型的二级结构)之外,还必须在实验中表现出天然蛋白质应有的特性(可表达、在溶液中稳定存在、能够行使一定的生物学功能等)。那么,我们离这样的“生物版ChatGPT”有多远? 去年12月,Meta AI利用其基于2.5亿条天然蛋白质序列搭建的预训练语言模型,生成了228条蛋白质序列。经湿实验验证,其中152条(67%)序列能够进行可溶性表达,且蛋白序列的新颖性极佳,证明了该预训练语言模型能够学习到蛋白质深层次“语法”和结构的信息,并具有泛化生成新颖蛋白质的能力[2]。 几乎是同一时间,Salesforce Research在Nature Biotechnology发布了利用ProGen模型进行蛋白质生成的工作。ProGen同样是一个生成蛋白质的语言模型,不同的是加入了蛋白质的属性标签,以实现特定类别蛋白质序列的可控生成。湿实验结果显示,该模型生成的具备特定属性的蛋白序列多样性强,与天然序列的相似度可以低至31%,同时表达率与天然序列接近(72%),并且通过语言模型生成的酶能够展现出与天然酶相似的活性[3]。 这些突破性的工作层出不穷,无一不预示着“生物版ChatGPT”即将来临。而作为产业落地应用最直接的场景,大分子药物,特别是抗体等蛋白类药物的研发能否从中受益,是各位从业者普遍关心的问题。从这个角度讲,上述工作还有一定差距,一是没有满足常规的以靶点为对象的药物设计理念,二是没有纳入对多种成药性目标(如免疫原性、理化性质)的考量。也就是说,上述技术可以一键生成接近“天然”、可以正常折叠表达的蛋白,并使其符合某种宽泛要求(如具备溶菌酶活性),但这些AI生成的蛋白还不足以成药。 02 “生物版ChatGPT”能一键生成大分子药物吗? 晶泰科技作为AI药物研发的先行者,在充分理解大分子药物研发流程的基础上,自主开发了大分子药物De novo设计平台XuperNovo®,该平台包含了一系列大分子药物从头设计策略,其中一款策略在内部被称为“ProteinGPT”,其技术路线与ChatGPT相似,可以一键生成符合要求的蛋白药物。 目前,ProteinGPT已经正式应用在晶泰科技的各类大分子药物项目中,下面展示3个真实应用案例: 应用1:根据给定的靶点一键生成Binder蛋白 (上图将ProteinGPT的使用过程用ChatGPT的风格进行了展现,除序列信息为示例外,实际交互过程和实验结果均来自内部真实项目,下同) 实验人员随后对上述15条蛋白进行了表达和测试,其中9条(60%)表达成功,而这9条全部可以结合靶点X,部分湿实验结果如下: ▲ 图1. 根据给定的靶点一键生成Binder蛋白的湿实验结果 可见,ProteinGPT以60%的成功率完成了上述binder生成任务。考虑到任务的难度——首先需要生成可正常折叠表达的蛋白,其次还需要结合特定的靶点和表位——这一表现堪称惊艳。 应用2:根据指定要求一键生成抗体文库 实验人员随后从ProteinGPT生成的文库中随机选取了26条,其中25条得到表达(表达成功率96.1%)。随后,加入了3条前人发现的具有良好性质的人源VHH抗体作为阳参,对这28条抗体进行了测试。湿实验结果如下: ▲ 图2. 28条序列的表达量数据(灰色是阳性参照序列,绿色是AI生成序列,下同) ▲ 图3. 28条序列的疏水性数据 ▲ 图4. 28条序列的Humanness Score 可见,ProteinGPT生成的AI序列: 表达成功率96.1%,大幅超过行业平均水平; 59.6mg/L的平均表达量大幅超过阳参序列37.1mg/L的平均表达量; 80%的AI生成序列与阳参序列的HIC保留时间相当,疏水性满足成药要求; 免疫原性在行业通用的评估算法下大幅优于阳参序列。 考虑到这些AI序列都是机器生成的自然界不存在的蛋白序列(天然的人源VHH抗体不存在),这些抗体能够通过初步的成药性评估已属不易,未来的成药潜力值得期待,晶泰也正在构建该文库的过程中,未来将用该文库赋能双抗、纳米抗体药物开发。 应用3:对性质欠佳的抗体进行改造,一键生成优化后的抗体 实验人员随后对这10条序列进行了表达和测试,湿实验结果如下: ▲ 图5. 针对热稳定性的序列生成的湿实验结果(灰色是待改造序列,绿色是AI生成序列,下同) ▲ 图6. 上述序列的表达量湿实验结果 可见,ProteinGPT生成的序列中有9条(90%)实现了热稳定性的提升,其中有4条实现了“Tm提升到72℃”的目标。在表达量方面,10条序列中有7条优于原序列。最终,项目人员选择了热稳定性和表达量均得到提升的抗体继续推进下游开发。 03 ProteinGPT“一键成药”背后的秘密 ChatGPT之所以智能,是因为其同时利用了海量的无标记文本数据(自监督预训练)和规模略小、但质量较高的标记数据(基于人类反馈的强化学习,RLHF),并在训练方式和模型架构上做了诸多创新。同理,在训练ProteinGPT的过程中,晶泰也使用了无标记的蛋白质序列数据(约2.8亿条)+抗体序列数据(包括公开数据集中的数十亿条+晶泰内部积累的抗体NGS数据),但这些仅仅解决了预训练的部分,高质量的标记数据,特别是与蛋白药物相关的标记数据是非常有限的,以抗体可开发性数据为例,常用的公开数据只有137条,构成了训练蛋白药物AI模型的最大瓶颈。...