智见深度 | ChatGPT在生命科学的应用,多位业内人士怎么看?
AI与生物

智见深度 | ChatGPT在生命科学的应用,多位业内人士怎么看?

ChatGPT引爆全网之前,上一次人工智能引起全民围观的,还是AlphaGO战胜韩国棋手李世石。同样,AIGC背后的生成式模型也在革新人们对于AI的认知。 最近,能写方案会作诗的ChatGPT再次引发全民轰动,在生命科学领域,一系列问题也被带到眼前: AlphaGo战胜李世石、AlphaFold的出现都成为AI或生命科学的里程碑事件,ChatGPT背后的生成式AI的出现有什么不一样?将给生命科学带来哪些新机会?生物医药领域出现一个类似强大的ChatGPT,最大的挑战是什么?AI在生物医药应用端真正落地,亟需突破的点是?未来有什么样特质的团队,能够在AI+生命科学的浪潮中突围? 由此,智药局邀请了多位业内人士交流关于ChatGPT在生命科学中的应用与看法,他们中既包含生物医药、TMT基金的投资人,也有企业创始人和AI+蛋白质平台开发负责人。 问题没有标准答案。希望以下观点和回答,能为各位读者带来启发。 01、BV百度风投 投资副总裁 刘强 关键词:数据质量、AI与生命科学深度结合、技术与时间维度 BV百度风投是最早定位于人工智能领域的投资机构之一,我们在医疗方向的布局很多也都跟AI相关。回到正题,ChatGPT爆火并不是一夜之间产生的,AIGC已经孕育发展很多年,包括谷歌2017年推出的transformer模型。但当时大家的反响不如预期,直到去年12月ChatGPT推出后,才真正认知到了AI发展的程度更进一步。 目前比较新兴的概念是,将AI用于蛋白质的从头设计。所以在ChatGPT火之前,其实在结构层面(无论小分子还是大分子),AI或者生成式AI的应用已经开始落地。 那么由ChatGPT引发而来,大家更多讨论的是基于预训练语言大模型思路能不能对生命科学有一个变革,尤其是在于大模型当中的变革,包括Salesforce公司做的 ProGen大模型对特定功能蛋白质的生成,或者大模型来解决组学的问题,而不仅仅是说生成模型的变革。 当然大模型不是谁都能够做成的。 从AI的三要素来看,算法算力在生命科学的限制现阶段还较小,因此生命科学里面最重要的仍然是数据问题。当然这里并不是指简单的数据数量问题,而是数据质量。 因为疾病的产生不光是基因组在发挥作用,蛋白组、代谢组、外部因素等都在调控它,如果忽略了很多的参数,难以训练出一个优秀的模型。就好比构建ChatGPT的时候,也要把文本内容参数化,最后才能训练出来。 我们是技术驱动来投资的,很多时候更考虑技术的前景,不太考虑它的周期长短,但是我们相信它在发展的过程当中会逐步落地。 现在用ChatGPT这种模式产生的蛋白到底能不能直接用?我认为会有一段距离,但是它能生成有活性的蛋白,也就代表了它能生成可以合成的蛋白,能生成没有毒性的蛋白,能生成有很好的成药性的蛋白,这些可以一步一步解决。 在落地时间的判断上,只要不要投进去过于早期,就能够看到一些较好的效果。所以技术一定是在它刚刚起来的时候投,大家都怀疑的时候投资是最有价值的。 我相信将人工智能和生命科学结合得最好的公司,是一家有前景的公司。生命科学的人才能够提供高质量数据,而人工智能让医疗数据价值最大化,两个维度缺一不可,一定要结合好才行。 02、某风投基金 医药组 执行副总裁 关键词:新技术与公司的匹配度、干湿试验结合、数据制造和利用、蓄力阶段 ChatGPT的出现在生命科学领域的确是新机会。很多公司虽然未公开表现出对相关技术的兴趣,但据我们了解,他们会成立专门课题组或者研发团队去跟进目前最新的技术,例如前段时间问世的蛋白质语言模型ProGen。 上述公司的算法工程师可能只要几个月就能复现这些开源的技术,如果只是做个Demo,耗费的时间将会更短。所以他们一定会去验证这些新技术与公司的匹配程度如何,并决定之后会不会去布局。 而且,语言生成模型在生命科学领域可想象的空间很大,比如蛋白结构生成、专家系统、靶点推荐等方面,这几块其实都是挺好的方向。 关键在于公司团队要把这些新工具与自己的强项进行匹配,并生成对应的数据,最终产生积极的效果。我觉得这样才能够使工具真正发挥作用。AI在现阶段的落地过程中,最大挑战还是数据问题。 相较于蛋白质的多样性,目前数据量还是太少,因此导致通过生成模型制造新的蛋白质在特定条件下是有效的,但扩展到通用环境,很可能会由于数据缺失使得预测准确度不够。仍然需要通过实验来判断。 沿着这个逻辑,我们在投资AI制药公司时,核心指标首先是干湿实验的结合能力。相关公司在这方面理解程度的不同,最后会导致在管线/项目的管理上出现时间和效率上的巨大差距,所以我觉得这是团队应该重点发力的部分。 第二个核心指标是数据制造和利用能力。生物数据存在非常明显的特性,即变异度大,重现性很差,不同实验室获得的数据区别大。所以如何稳定地获取、清洗及利用数据等问题就变得非常重要。 因此每次接触相关公司时,我都会去问数据方面的问题,如果团队能够在这方面思考得非常清楚,对我来说就很具有吸引力。 现阶段AI制药在整个生物医药的占比其实很小,但AI技术就像一辆驶来的火车,我认为它仍然需要一个阈值,当数据积累到一定程度,就会迎来爆发式增长的奇点,不过当前生物医药的发展还在蓄力阶段。 03、天壤XLab负责人 苗洪江博士 关键词:蛋白质设计、AI三要素、算法布局、工作台、多方合作 在我看来,从AlphaGo、AlphaFold2到生成式AI是一个从分析工具走向解决方案、并落地解决实际问题的过程。 同样在生命科学领域,人工智能也从算法开发走向了实际应用。比如AlphaFold2,2021年开源代码,隔周便发布了大型结构数据库,它预测的100万个结构中包含了人类全蛋白组的所有序列。 如今的生成式AI更进一步,从功能需求出发,自动探索巨大的蛋白质空间,生成全新的序列和结构。 以蛋白质设计领域为例,我们已经看到了AI在其中的阶段性突破。早期,蛋白质的可设计性较低,比如生成一个与天然蛋白质完全不同的全新结构,对于这个设计蛋白质的功能几乎做不到调控。如今是用模型对蛋白质的理解替代了人为经验的理解。 再往后走向应用的话,现阶段仍需加大在算法研发上的投入,同时打造好用的工作台,帮助更多的研究者在AI+生命科学的课题上取得突破。 算法方面,虽然部分国外团队的算法已经开源,但是科学研究不应该只停留在如何使用的阶段,还要把技术推向解决更深层次问题。只有从头掌握核心技术能力,才能破解在实际应用中遇到的难题。 当然,这项研发的进行也离不开算力的支持。数据方面,我们的设计方法是基于结构的一种生成模式。在预训练时,模型理解了蛋白质折叠的原理,就能够很好的把原理应用到蛋白质设计过程中。 在医药领域的AI应用,随着研发阶段的推进,对数据的需求快速增加。其中,有一些通过算法的开发可以缓解,例如蛋白质预训练大模型,有一些则要从数据产生、收集、清洗做起,用增大的数据集训练才能获得更好的解决方案。 所以我们在开发过程中,包括去年推出的AI蛋白质设计工作台xCREATOR,也希望能在这个领域里面帮大家将研发项目快速往后推进。 我们非常关注数据问题,同时也希望大家能用平台的算法进行尝试。研发人员不需要懂任何算法,平台后端会自动将计算验证全都跑完,将最终结果展示给用户去验证,而研发更后端的问题我们也在不断开发和上线新的能力去逐步解决。...
🚀百度并购GBI,AI医疗大数据迎来全链条洞察!巨头扎堆,AI制药黄金时代来临?🔥ChatGPT掀
AI与生物

🚀百度并购GBI,AI医疗大数据迎来全链条洞察!巨头扎堆,AI制药黄金时代来临?🔥ChatGPT掀

百度并购GBI以AI技术助力医疗信息化,结合"文心一言"计划实现全链条洞察,标志着其步入医药行业;全球范围内,AI制药领域取得里程碑进展,如DeepMind的AlphaFold预测蛋白质结构,Meta的AI预测微生物结构等;2022年AI药物研发融资额增长,制药公司与AI企业合作增多,如赛诺菲、礼来等加大布局。ChatGPT的出现引发业界对AI制药的新思考,生成式AI在靶点发现和生物制药领域前景被看好。未来,医疗保健市场预计AI规模将大幅增长。
熵基科技拥抱ChatGPT,BioCV领军企业能否引领新科技浪潮?注意风险!
AI与生物

熵基科技拥抱ChatGPT,BioCV领军企业能否引领新科技浪潮?注意风险!

熵基科技宣布基于ChatGPT的原型研发,同时百度文心一言也在测试中,但新技术的研发与应用存在不确定性,投资者应注意相关风险。作为多模态BioCV领域的领军企业,熵基致力于智慧出入口、身份核验等业务,并积极布局零售云服务,为不同用户提供数字化产品和服务。值得注意的是,资本邦提供的所有信息仅作参考,不构成投资建议,投资需谨慎。