一场高品质BD主题论坛,点击报名!

ChatGPT是由美国OpenAI公司开发的大语言模型,使得AI产业出现了爆炸式发展。然而,近日包括SpaceX创始人伊隆·马斯克、苹果联合创始人Steve Wozniak、Stability AI 创始人Emad Mostaque等上千名科技大佬和AI专家,都联名签署了一封公开信,呼吁《暂停大型人工智能研究》,建议所有人工智能实验室立即暂停比GPT-4更强大的人工智能系统的训练,暂停时间至少为6个月。

主要担心AI进化会出现人类失去对文明控制的风险。“ChatGPT之父”——萨姆·阿尔特曼也说过,有时候就连OpenAI的研究者自己都搞不明白,GPT系列为何会出现推理能力,并暗示AI确实可能杀死人类。也有人提到所谓的硅基生命可能替代碳基生命。其实并不奇怪,新的技术总是在充满争议中前行。人类对未知充满恐惧,保持一定敬畏不见得是坏事。

ChatGPT的更高级版本的进化以及风险我们暂且不论,其目前的表现就已经在改变很多行业从业者的命运。比如传统客服需要人工,以后ChatGPT完全可以回答问题了。ChatGPT在智能投顾、智能辅导、智能导游等方面的潜力,对金融业、教育行业、旅游业也会产生影响。

那么作为医药行业从业者,很好奇ChatGPT对我们这个行业的未来会产生怎样的影响呢?是AI的加持和赋能使得研发效率提高,还是真的会影响到大家的饭碗,被AI替代呢?美国密歇根州立大学和天普大学的研究人员发表了相关文章进行了分析,结合笔者的工作经验,略作讨论。

药物研发大致过程分为靶点发现、苗头/先导化合物发现、临床前测试等环节。下图是以计算机技术为基础的药物发现示例图。

那么ChatGPT对药物研发各环节可能的影响有哪些呢?

1) 计算机化学:这块不是本人的专业领域,不展开了,原文大致意思是ChatGPT对Compute the compound multiplicity、Convert smiles to files、Generation of input files for gaussian and other software、Input file for AutoDock docking均能深度参与,并能按照作者提的问题和要求成功给出答案。

2) 找到pdb文件(Finding the pdb files):PDB是蛋白质结构数据库,作者以金属蛋白、结合DNA蛋白、刺突蛋白为例,ChatGPT可以准确提供这些蛋白的PDB ID。但是对于复杂一些问题,ChatGPT并没有回答上来,如下图所示:

3)可以给出FASTA序列,但不具备对比能力(Can give FASTA sequence but cannot compare the FASTA sequence):目前的ChatGPT会建议去UniProt数据库获取所需序列。不过,提供序列这个功能即使现在不能实现,未来应该也很容易突破,研发人员给出任何一个蛋白质的名称,只要是公开可查的,GPT能准确给出我们氨基酸序列。在此基础上,进一步做序列比对,应该也不是什么难事吧。

4)ADMET性质:ChatGPT仅能给出已知药物的ADMET属性。现在的GPT给出的数据是通过其能检索到的公开的各种数据库中的信息获得的。新结构、新分子的ADMET属性现在的GPT是不具备能力给出的,未来感觉实现这个突破也有点遥远,难度还是有点大的。不过,能给出我们关心的已有分子的数据也是大大提高了获取资料的效率。

5)帮助进行文献检索:ChatGPT在文献检索方面作用很大,不仅具备检索功能,而且可以列出与检索主题相关的specific findings. 这点对于GPT来讲应该就是小菜一碟啦,文献数据库大多是公开的,以现在的算力,很轻松就能囊括所有关键词相关的文献、资料,并提炼出有用的信息。同理,ChatGPT可以产生药物相关的报告和文章:ChatGPT can be fine-tuned on a dataset of drug-related papers and used to generate reports and papers that summarize the current state of research in a specific area.

6)抄袭检查:可以帮助研究论文或资料查重,确认是否有抄袭风险。这点主要是针对研究数据需要发表论文时的场景,GPT可以帮助查重,这个应用对GPT来讲,比起国内某宝卖的查重服务应该是只会强不会弱的吧。

7)机器学习和数据分析:将数据文本整合到ChatGPT中,可以实现对数据的分析。原文:It can be integrated into a program or application using its API, which allows developers to input text and receive a response generated by the model. The API can be accessed using programming languages such as Python, JavaScript, and C#. Additionally, the OpenAI team has also released a pre-trained version of the model, which can be fine-tuned for specific tasks using a process called transfer learning.

关于这点,还是能想到一些场景的。比如毒理数据,一个四周重复给药长毒报告中,会产生海量数据,血液学、血常规、尿液、免疫细胞、TK、ADA及病理等,当前现状几乎都是靠人力去分析数据,得出结论。这点GPT应该是能派上大用场,把数据导入GPT分析,再去获得是否有异常数据(超过正常范围)、是否与阴性组有差异、是否有剂量相关性、是否有雌雄差异等等。通过机器学习、训练,数据分析这个维度的能力,GPT应该是能突破的。

8)创新:通过对话,研究人员可以获得很多新的建议和想法。很难有那么一个聊天对象,学富五车,才高八斗,上知天文下知地理,又那么有耐心、有修养,不厌其烦的、态度端正的掏空自己毕生所学,然后毫无保留、倾囊相授。各种稀奇古怪、各种漫天猜想、各种思维跳跃,只有你想不到的,没有它不能回答的,然后或许真的有那么一刻,某些想法就碰撞出来了呢。

9)鉴定并验证新的药物靶点:通过与ChatGPT交流,可以获得某一疾病领域或某一靶点的最新研究数据,帮助研究人员获得潜在新靶点。这点对于药物研发还是非常重要的。靶点是所有研发的起点,也是决定大药企、小biotech研发成功率的核心要素之一,Pfizer的MBDD模型、阿斯利康的“6R”模型、Merck的TxM模型,都将Right target列在其中。每天海量文献发布,人力是很难逐一甄别的,GPT通过其强大的算力和锚定的资源,可以给出某一领域,比如胰腺癌,新的研究提示的潜在新靶点。也可以给出KRAS G12C最新研究数据,还可以给出是否有新的常见耐药突变出现。可以做到省时省力吧。

10)设计新的药物:ChatGPT基于现有的所有成药或可能成药分子,生成具备同样属性的新的化学结构(ChatGPT can be fine-tuned on a dataset of known drug-like molecules and used to generate new chemical structures with similar properties),有可能会提高研发成功率。同前,不是本人专业领域,不做评判,看上去很厉害的样子,GPT如果能设计结构、改造化合物就有意思了。

11)优化药物属性:ChatGPT can be used to predict the pharmacokinetics and pharmacodynamics of new drugs, and to support the virtual screening of chemical libraries in early-stage drug discovery. 通过预测新分子的PK和PD属性,进行虚拟筛选。关于这点,我理解的是GPT根据新分子结构与已有PK、PD数据的且结构相似的分子对比,再加以训练,可以大致推测新分子的PK、PD特点,将明显不符合成药规律的分子先筛掉,节约成本。不过,最后确定lead、PCC还是需要实验验证,完全靠这种预测下定论也不太可能。否则,GPT的玩笑可就开大了。

12)预测毒性:ChatGPT can be fine-tuned on a dataset of toxicity data and used to predict the potential toxic effects of new drugs. 市面上已经有一些预测毒性的软件,如遗传毒性预测软件。GPT有所有公开药物结构-毒性的数据,对于给出的新结构,做出一些毒性推测是不难的。但是,监管机构明显不会接受,至少未来很长时间内也不会接受这种预测数据代替实测数据,开展临床,更别提上市了。而且,毒性涉及的因素实在太多,太过于复杂,不太容易预测。尤其对于生物药就更难了,单纯的ADA预测都还没谱,更别提其它毒性预测了。

13)药物注册(Regulatory affairs):The website Pharmavibes suggests that it could be a useful source of information about regulations in different countries and in helping companies to understand those regulations in relation to their own product. It also suggests companies could use ChatGPT when putting together applications to regulatory agencies. 全球所有监管机构的政策、法规都是公开的,对于这些资料的处理,GPT应该是没有任何问题的。常规的注册性问题,是可以从GPT获得一些建议或答案的。另外,基于给定的数据、按照固定的格式、整合成最终的报告,GPT应该也能有所作为。

14)抗体工程改造:既然GPT能够对计算化学、结构模拟有助力,对于抗体人源化、亲和力成熟等有点参与感也就不奇怪了。

GPT缺点:

1)GPT主要依赖已公开的数据进行回答。如果数据是不完整的、有偏倚的、不准确的,该模型的预测就会出问题。

2)缺少实验验证:GPT目前只能做理论分析,只要是预测,就很难绝对准确,或者准确率都是个问题,还是需要实验去确证、验证、求证。

3)Limited understanding of the underlying biology: While ChatGPT can generate human-like text, it does not understand the underlying biology of the systems it is simulating. Therefore, the predictions made by the model may not always reflect the true complexity of the systems.

4)Limited interpretability: ChatGPT, like other machine learning models, can be difficult to interpret, and its not always clear how the model arrived at a particular prediction.

5)Limitations in handling uncertainty: ChatGPT is a deterministic model, it cannot account for the uncertainty in the data and predictions.

6)Lack of transparency: ChatGPT is a black box model, it is difficult to understand and explain the internal workings of the model, which can make it difficult to trust the models predictions.

担心翻译、整理的不准确,就将原文列上供参考吧。

最后简单总结下吧,首先,ChatGPT能够影响药物研发、改变药物研发的肯定不只上面罗列的这些。既然ChatGPT能够重塑很多行业,医药行业也不会例外的。其次,我们要做的是拥抱变化、拥抱未来,逃避肯定是没用的。然后,也不必担忧甚至恐惧,ChatGPT其实更多的作用还是赋能,是提高研发的效率。当然,某些岗位是有一定风险的,比如文献检索、数据分析等等。最后强调下,ChatGPT并没有进国内,国内用户正常途径是不能注册的,国产的类似AI模型还离得很远。本文就简单粗浅讨论下ChatGPT的特点及对药物研发的可能影响,抛砖引玉吧,万一未来它真的来了呢。更多优质内容,欢迎关注↓↓

Leave a Reply

Your email address will not be published. Required fields are marked *