文章主题:在计算机视觉和自然语言处理等领域的成功应用推动下,深度学习方法经历了一场革命。在这篇论文中,我们描述了几种将深度学习应用于临床前药物发现的新型方法。
摘要
近年来,计算机视觉与自然语言处理等技术的飞速发展,使得深度学习方法在各个领域取得了显著的成果,堪称一场颠覆性的革命。本文主要探讨了的几种将深度学习技术运用于临床前药物发现的新型方法。
我们 initialized a method for designing molecular connectives, which incorporates fundamental three-dimensional information. In extensive testing, our approach surpassed those based on databases, demonstrating its efficacy through various case studies. We validated the application of this strategy in support of bridging jumps, fragment connections, and PROTAC (protein-targeting artificial chemical) design. Subsequently, we extended this framework to encompass physical three-dimensional structure information, providing a more abundant prior knowledge for generation processes. Our method was further applied to molecular description tasks, such as R-group design.
我们接下来要讨论的是预测模型,尤其是那些依赖结构进行虚拟筛选的方法。值得注意的是,我们观察到广泛应用于计算机视觉任务的卷积神经网络(CNN)在基于结构的虚拟筛选领域同样取得了显著的进步。为了更好地应用这些知识,我们开发了两种技术,以便将这些特定领域的专业知识融入到我们的框架中。首先,我们强调了由于接口限制,采用多元化的评分方式是必要的,并且证明了这种方法的优点。其次,我们提出了一种迁移学习策略,该策略利用蛋白质家族间的差异性知识来构建针对特定蛋白质家族的模型。
在我们的研究中,我们探讨了如何通过采用生成方法来优化基于结构的虚拟筛选过程中所使用的训练和基准集。我们引入了一种先进的深度学习策略,该策略可以根据用户的偏好规格生成诱饵,从而调控诱饵的偏差或者构建具有固定偏差的集合。实验结果表明,我们的方法在很大程度上降低了这类集合中的偏差含量。进一步的验证显示,我们所生成的分子对于基于对接的方法而言更具挑战性,能够有效区分生物活性化合物。同时,我们还发现,基于卷积神经网络的结构化虚拟筛选方法能够应用于这类化合物。
研究动机
药物在医疗领域扮演着至关重要的角色,作为卫生系统的核心组成部分(世界卫生组织,2010)。然而,面对日益增长的医疗需求,尤其是新的和现有的需求,现有药物似乎难以满足(Kaplan等,2013)。近期,由新冠病毒大流行(COVID-19)引发的全球紧急状况,更加凸显了解决未得到满足的医疗需求的迫切性。
新药研发是一项充满挑战的多阶段进程,涉及众多学科,通常耗时良久。据Avorn(2015)和DiMasi等(2016)的数据,平均每位新疗法的研发费用高达15-30亿美元,具体数值则因计算方式不同而有所差异。此外,整个过程所需时间超过十年(Paul等,2010)。自2008年至2016年,美国食品药品监督管理局(FDA)平均每年审批31款新药(U.S. Food and Drug Administration, 2018a)。然而,这些数据并未出现明显好转,因此当前的药物研发策略被认为是不可持续的(Moons等人,2014;安永会计师事务所,2017)。
药物研发的大部分成本来自于失败的高几率,投入足够的时间和财政资源远不能保证成功。最近的一项研究发现,所有药物开发项目中只有13.8%最终获得批准,而治疗罕见疾病的药物,也被称为 “孤儿药”,总体成功率低至6.2%(Wong等人,2018)。失败的原因有很多,我们将在第1.3.1节详细讨论。药物开发中的高成本和低生产率是一个长期存在的问题,对于这个问题的解决是至关重要的(Myers和Baker,2001)。
计算机辅助药物设计(CADD)被认为有可能加速这一过程并降低开发新疗法的费用(Ou-Yang等,2012)。然而,尽管在整个药物发现工作流程中广泛采用了计算方法,但成本仍在持续增加(DiMasi等人,2003;Avorn,2015;DiMasi等人,2016),生产率持续低下(Khanna,2012)。我们仍然非常需要新的技术和方法来彻底改变药物发现。
最近,在深度学习兴起的推动下,人们对人工智能在广泛领域的应用重新产生了兴趣。虽然深度学习的许多核心原理在几十年前就被提出来了(如Rosenblatt,1958;Fukushima,1980;Rumelhart等人,1986),但直到2012年,这些技术的力量和有效性才被证明,这就是现在所称的 “ImageNet时刻”。在一年一度的ImageNet大规模视觉识别挑战赛中,Krizhevsky等人(2012年)通过采用深度神经网络,比下一个最好的竞争者高出41%。人们普遍认为,这一突破是由前所未有的标记数据的可用性和计算能力的结合而实现的。这导致基于学习的系统在图像识别(He等人,2015)、单人游戏(Mnih等人,2015)和双人游戏(包括围棋(Silver等人,2016;Silver等人,2017)、国际象棋(Silver等人,2018)和《星际争霸II》(Vinyals等人,2019)方面与人类相匹配,甚至经常超过人类。
这些进展迅速引起了化学信息学领域的注意,并报道了几个早期的有希望的结果。2013年,深度神经网络是默克公司分子活性挑战中表现最好的模型(Ma等人,2015年),而在2015年的Tox21毒性数据挑战中也取得了类似的结果(Mayr等人,2016年)。
基于学习的算法在药物发现中有着悠久的历史。早期的定量结构活性关系(QSAR)模型首次描述于20世纪60年代初(Hansch等人,1962),并已成为普遍现象(Salt等人,1992)。然而,传统的机器学习和经典的统计方法通常要求目标输入的明确特征化,如分子或蛋白质-配体复合物,以一维向量的形式(Klambauer等,2019)。这一要求导致仅在分子特性预测方面就开发了数百种描述符(例如Deng等人,2004;Zhang等人,2006;Durrant和McCammon,2011)。然而,深度学习方法的一个优势被认为是其成功的关键,它能够消除抽象的需要,并允许直接学习更多的数据类型(Klambauer等人,2019)。
最后,上面讨论的QSAR模型通常是定制的模型,在一个特定的药物发现项目的背景下,根据少量的数据构建。因此,虽然很有用,但它们并不具有普遍的适用性,而且往往不能超越具体的化学系列。在其他领域(如ImageNet,Deng等人,2009)的成功表明,通用模型的一个关键要求是足够的数据(Halevy等人,2009;Sun等人,2017)。在过去的十年中,公开的分子活性和生化数据(如Kim等人,2015;Papadatos等人,2015)以及结构数据(Berman等人,2000;Burley等人,2019)数量迅速增加,这主要是由于关注度的提高和新实验技术的出现(如高通量筛选,Inglese等人,2007)。
最近在蛋白质结构预测领域取得的成功就是一个例子,AlphaFold(Senior等人,2020)和AlphaFold 2(Jumper等人,2020)分别在CASP 13和14中的表现达到了顶峰(Kryshtafovych等人,2019),这说明了这些数据的可用性在其他方面是不可能的。虽然在将深度学习应用于药物发现方面存在许多挑战,这些挑战将在第1.5节中进一步讨论,但这是一个令人难以置信的发展,进一步突出了深度学习的前景。
本论文的重点是为药物发现过程开发深度学习方法。在这一章中,我们首先讨论了机器学习的几个关键发展,并介绍了两个可以在化学信息学中使用的一般深度学习方法。然后,我们简要地总结了药物发现过程,并讨论了计算方法是如何用于药物发现的。我们重点讨论了这些方法如何被用来筛选大型虚拟化合物库,以寻找最初的热门分子。然后,我们描述了计算方法,特别是基于机器学习的方法,如何被用来设计新的化合物,并强调了分子设计的几个常见挑战。最后,我们概述了本论文的结构和主要贡献。
机器学习在药物发现中的挑战
机器学习在药物发现中的挑战很多,横跨所有领域,包括数据、算法、政治和实践。在此,我们将简要地谈一谈。
首先是依赖昂贵的(在时间和成本方面)实验数据进行训练和验证。这与深度学习在围棋(Silver等人,2016)或国际象棋(Silver等人,2018)等游戏中的成功形成对比,在这些游戏中,训练数据可以在模拟中完美生成。这促使人们开发出能够从少量数据中学习的方法(例如,少数射击学习,Altae-Tran等人,2017)或有效利用其他可用数据(例如,转移学习,Pan和Yang,2010;元学习,Maudsley,1979)。进一步的算法挑战来自于生物和化学数据的性质,包括这些数据的格式(如图表,第1.2.2节)以及固有的噪声。
一个关键的挑战是我们如何对成功进行量化。盛行的人类主导的过程远非无懈可击(见第1.3.2节),但目前还无法量化药物化学的成功(Green等人,2018)。有鉴于此,算法成功的标准是什么?一些人告诫说,不要把计算方法的门槛定得太高(Green等人,2018)。
最后,实现机器学习方法的全部影响将需要投入大量的资源。在真实世界的药物发现项目中进行实验验证是评估机器学习在药物化学中的贡献和确定需要改进的领域的关键下一步。
论文大纲
在本章中,我们强调了药物发现所面临的挑战,并促使机器学习的应用成为一种部分解决方案。我们讨论了几个关键的机器学习方法在药物发现中的应用。在这篇论文中,我们描述了几种利用深度学习应用于临床前药物发现的新型方法学。
在第二章中,我们提出了一种生成方法来设计分子连接物,其中包含了基本的三维信息。在大规模的测试中,我们发现我们的方法大大超过了基于数据库的方法,也就是以前解决这个问题的事实方法。通过一系列的案例研究,我们展示了我们的方法在支架跳跃、片段连接和PROTAC设计中的应用。
在第三章中,我们扩展了我们的连接物设计框架,以纳入物理意义上的三维结构信息,为生成过程提供更丰富的先验。此外,我们证明了我们的方法可以应用于分子阐述任务,如R组设计,只需改变训练集,无需对方法进行其他修改。
在第四章中,我们将注意力转向预测性建模和基于结构的虚拟筛选。我们发现,用于一般计算机视觉任务的CNN方法的进展也适用于SBVS。此外,我们提出了两种技术来将特定领域的知识纳入这个框架。首先,我们表明,由于对接的限制,有必要使用多姿多彩的评分,并证明了平均评分政策的好处。其次,我们提出了一种转移学习方法,利用蛋白质家族之间的差异知识,构建蛋白质家族的特定模型。
在第五章中,我们研究了如何使用生成方法来改进SBVS中使用的训练和基准集。我们提出了一种深度学习方法,该方法可以根据用户的偏好规格生成诱饵,以控制诱饵的偏差或构建具有定义偏差的集合。我们表明,我们的方法大大减少了这种集合中包含的偏见。我们验证了我们生成的分子对于对接方法来说比以前的诱饵更具有挑战性,可以与活性物质分离。此外,我们表明,基于CNN的SBVS方法可以在这类化合物上进行训练。
最后,在第六章,我们总结了这项工作的结果。我们讨论了主要的结论,并描述了本论文以后可能开展的工作。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!