亚马逊Echo内置大型语言模型,将逐步提升对话能力,你期待吗?🎉
AI与生物

亚马逊Echo内置大型语言模型,将逐步提升对话能力,你期待吗?🎉

亚马逊的数字助手Alexa正在逐步加强其对话能力,使用自主构建的语言模型来总结网络文本并支持多语种对话。尽管面临来自ChatGPT等竞争对手的压力,亚马逊计划通过更新产品和服务来提升用户体验,如推出更流畅的Echo Show和新款 Echo Buds。尽管设备销量增长,但亚马逊认识到AI在复杂查询处理上的局限性,正努力解决与家庭成员互动及防止虚假回应的问题。
蛋白质结构预测速度提升60倍!Meta做出“生物界的ChatGPT”慈禧在上厕所时,为何要让宫女嘴含温水等在一旁?真相让人难受
AI与生物

蛋白质结构预测速度提升60倍!Meta做出“生物界的ChatGPT”慈禧在上厕所时,为何要让宫女嘴含温水等在一旁?真相让人难受

智东西 编译 | 周炎 编辑 | 云鹏 智东西3月24日消息,近日,《华尔街日报》在一则报道中,对Meta的ESMFold与DeepMind的AlphaFold两个蛋白质结构预测大模型进行了梳理,详细地介绍了二者的原理以及开发过程。 报道称,此前,DeepMind解决了一个困扰科学家50年的难题,它使用AI代替此前速度较慢、成本较高的实验室技术,来确定蛋白质的三维结构。这些结构对药物和疫苗开发、气候变化研究等都至关重要。 据悉,DeepMind的AlphaFold2首发于2021年7月,已被用于预测几乎所有已知的蛋白质结构。就在AlphaFold2推出的3个月后,Meta研究人员在Nature上发表论文。文章显示,Meta研究人开发了一种蛋白质结构预测模型ESMFold,预测了来自细菌、病毒和其他尚未表征的微生物的约6亿种蛋白质的结构。同时,在较短的氨基酸序列中,相较于AlphaFold2,其预测蛋白质结构的速度快了将近60倍。 一、ESMFold加入战局,14天内预测超6亿种蛋白质结构 从氨基酸序列中预测蛋白质结构是自然科学的重大挑战,从蛋白质的分子结构结构来看,蛋白质的分子结构可划分为四级,所谓的蛋白质的结构预测就是从蛋白质的一级结构预测其折叠和二级、三级、四级结构。根据不同的氨基酸和序列,蛋白质能折叠的构型数量是一个天文数字,使用AI的方法可以加速对蛋白质的解析。 目前在基于进化的算法中,AlphaFold2通过在多序列输入、进化同源物对齐序列和可选结构模板上训练端到端神经网络,在预测蛋白质结构方面取得了一定成果。与AlphaFold2工作原理不同,ESMFold使用ESM-2学习的信息和表示来执行端到端的3D结构预测。 简单来讲,作为大型语言模型,ESMFold的原理与ChatGPT基本相似,只不过,训练它的内容不是自然语言,而是生物基因语言。它基于语言学习模型内部表征,而不是像AlphaFold2一样基于结构和序列匹配算法,这样就消除对显式同源序列作为输入的要求,即ESMFold蛋白质模型只需一个序列作为输入。同时ESMFold是一个完全端到端的序列结构预测器,可以完全在GPU上运行,无需访问任何数据库。 研究人员曾经做过试验,在单个NVDIA V100 GPU上,使用较少参数的ESMFold在14.2秒被对具有384个残基进行预测,可比单个AlphaFold模型能够实现的预测速度快6倍,而在较短的序列上,研究人员甚至看到约60倍的提速。 据悉,ESMFold蛋白质模型背后的团队由Meta AI资深研究科学家Alexander Rives主导,该团队专注于大规模蛋白质序列和结构数据的无监督表示学习模型研究。 2017年,欧洲生物信息研究所发布的显示了AlphaFold模拟人类的蛋白质结构,来源:法国新闻社 Meta AI研究科学家Alexander Rives说:“这些蛋白质极其多样,人类对它们知之甚少,为了数量规模庞大的蛋白质,研究人员需要在预测速度上取得突破。”他还称,使用大型语言模型,ESMFold能够在两周内预测超过6亿种蛋白质。 作为测试案例,Meta AI将ESMFold用于来自环境来源(包括土壤、海水、人类肠道、皮肤和其他微生物栖息地)的批量测序“宏基因组”DNA数据库。绝大多数编码潜在蛋白质的DNA条目来自从未培养过且科学未知的生物体。 自从DeepMind取得突破以来,人们对AI在生物学中的应用产生了巨大的兴趣。AlphaFold是蛋白质结构预测方面取得的一大进步,这也进一步激发了深度学习的浪潮。 二、曾取得CASP最好成绩,AlphaFold将被用于治疗疾病 目前,DeepMind开源了AlphaFold2的代码,让社区可以免费使用,目前约2.4亿的几乎所有已知的蛋白质都可以查到。此前,研究人员花费几个月或几年时间才能预测蛋白质的结构。投资生命科学技术的成长型股票公司Biospring Partners联合创始人詹妮弗卢姆(Jennifer Lum)称,AlphaFold缩短了这个过程,使这些团队能够将他们的时间转移到下游的研究和产品开发上,进入其他增值领域。 2018年,AlphaFold1在两年一度的CASP实验中取得了最好的成绩。团队又花了大量时间跟踪CASP,尝试不同的方法来改进AlphaFold,测试它们是否可以匹配实验蛋白质结构的准确性。 Jumper称,这个团队一直工作到2019年,他才真正相信这个团队能够完成它的使命。传统而言,生物学家使用基于X射线和其他技术的实验室技术来理解单一蛋白质结构,但据Jumper称,这一过程不仅要花费数年时间,还活花费10万美元。 John Jumper领导了机器学习应用蛋白质生物学的新方法开发,来源:DeepMind官网 虽然计算方法在理解蛋白质结构方面取得进展,但是目前这项技术还不够完善。无法取代实验室方法。最初的AlphaFold模型试验AI预测氨基酸对之间的距离,第二步利用这些距离分布来得到蛋白质的预测结构。其中第二步涉及到AlphaFold,它利用这些信息,提出了一个关注蛋白质是什么样子的共识模型,而无需AI。 Jumper称,研究小组正在把注意力转向蛋白质创新的新挑战。研究小组正在寻求了解突变与蛋白质功能变化之间的联系,这可以帮助治疗疾病。 结语:AI赋能药物研发具有巨大潜力 作为蛋白质结构预测大模型,ESMFold在速度上快于AlphaFold2约60倍。如果在实际计算中,这一速度优势表现得更加明显。同时推断速度优势使得基于计算有效映射大型宏基因组序列数据库的结构空间成为可能。 ESMFold还可以被用于进行快速准确的结构预测,进一步帮助发现新的蛋白质结构和功能。未来,ESMFold或将超越预测蛋白质的静态结构,进一步研究蛋白质的动态结构。当这两个领域的研究都完成后,通过AI赋能新药设计就具备了基础,而从长远看,这具有巨大的潜力。 来源:《华尔街日报》
ChatGPT会改变生物医疗吗?穿内衣就算了,输血管我也忍了,那个戴口罩的,真拿观众当傻子呢
AI与生物

ChatGPT会改变生物医疗吗?穿内衣就算了,输血管我也忍了,那个戴口罩的,真拿观众当傻子呢

出品丨虎嗅科技组 作者丨苏北佛楼蜜 编辑丨陈伊凡 题图丨视觉中国 2022年12 月,两名计算生物学家Casey Greene和Milton Pividori开创了一项不同寻常的实验:他们请一名非科学家的助手帮助他们改进三篇研究论文。在一份生物学手稿中,助手甚至在引用方程式时发现了一个错误,审稿顺利完成且费用适中,每份文件不到0.50美元。 这名助手并非人类,而是一种名为GPT-3的人工智能算法。 “这将帮助我们提高研究人员的工作效率。” 科学家对此感到震惊。 如今,基于这一通用大模型算法诞生的产品ChatGPT,一经推出,就引发了现象级关注。一时间,全球科技巨头竞相宣布其将会把ChatGPT引入自己的业务。人们或惊叹狂欢,或居安思危,ChatGPT所承载的意义似乎就快超越它本身。在百花齐放的应用场景中,生物技术领域能如何搭上ChatGPT的快车? ChatGPT与生物技术的结合 2020年,人工智能公司OpenAI发布的一款模型,自发布初就被大肆宣传为生成式AI聊天机器人式工具,无论是创作散文、诗歌、计算机代码,还是编辑研究论文,似乎无所不能。 昨日,微软(Microsoft)公司表示,将把ChatGPT整合到搜索引擎Bing和网络浏览器中,谷歌(Google)公司也在今日展示了其名为Bard的人工智能对话系统。这些系统可以根据用户提供的复杂问题,提供全面而综合的回答,小到制定详细的旅行计划,大到分析公司的运营策略。 ChatGPT在生物技术上最有前景的应用似乎是在蛋白质生成和基因测序领域。 总部位于加利福尼亚的生物技术公司Profluent使用类似于ChatGPT的AI模型,创造了新型抗菌蛋白,并且已经证明它们能够在实验室中杀死细菌。 这一模型名称为ProGen,是一种大型语言模型 (LLM),它利用大量文本作为训练数据,开发分析和生成语言的能力——类似于ChatGPT,但 Progen的语言是蛋白质语言。 简单来说,就是使用 AI 和大型语言模型,例如为 ChatGPT 提供支持的语言模型,来学习生物学的基本语言,并设计具有治愈疾病潜力的新蛋白质。 目前,ProGen生成了一百万种不同的人工序列,研究人员从中挑选了 100种在实验室中合成,其中66种产生了类似于鸡蛋清溶菌酶的化学反应,用作阳性对照。 该团队随后选择了五种新型抗菌蛋白,并测试了它们对大肠杆菌的抵抗力。其中两种新蛋白质能够杀死细菌。  同时,X射线成像显示,尽管这些抗菌蛋白的氨基酸序列与任何已知的天然蛋白相差超过30%,但它们仍然折叠成与”天然表亲们”几乎相同的形状。 这项研究可能意味着,未来我们能通过与AI合作,创造本不属于自然界的蛋白质,并将这些蛋白质赋予不同的功能,人类成为了微观世界里的上帝。 攻克蛋白质后,ChatGPT似乎又开始朝着基因高歌猛进。 科技公司Nvidia在今年的JP摩根医疗健康大会称,随着新一代基因组测序速度的不断加快和成本的不断降低,目前我们测序基因组DNA的能力已经超越了分析DNA序列并从中获取洞见的能力。而更快速有效地处理海量的基因组序列信息离不开人工智能。 大型语言模型通过可以分析人类语言一样分析DNA序列,以此加快基因组的拼接、基因突变的发现,并且用人类对话的方式将发现表述给研究人员。 比如,整合ChatGPT的基因测序分析系统可能在处理患者的基因组测序数据后给出——“这名患者的某基因上的突变可能导致罕见遗传病A”的结论,它似乎代替了医生。 ChatGPT是万能的吗? 一切的发现和应用似乎都朝着好的方向前进。但面对似乎全能的工具,随之而来的是人类的反思和“批判”。它是万能的吗? 部分看客也跟着给出了自己的答案:不是。 首先,我们开始思考翻译和替代的准确率? 比如,目前大型语言系统的缺陷在于“提供信息的真实度有待提高”。由于ChatGPT基于对已有语言数据的学习提供回答,它的回答也受到数据库中不真实、有偏见、或者过时知识的影响。 这可能意味着对于专业性强的话题,如果大型语言系统没有经过足够专业数据的训练,很可能提供错误的回答。对于不了解专业知识的普通人来说,无法侦辨虚实。 此外,由于海量的数据训练是保证ChatGPT的基础,因此在数据的输入过程中,可能存在历史偏见等遗留问题,种族、性别、文化、年龄歧视等不良因素都会隐匿在其中。想要人工剔除是十分困难的事情,如何防止ChatGPT根据这些数据输出有害言论是需要解决的另一个挑战。 在Nature上发表的最新评论中,有研究人员指出,建立使用ChatGPT的规范和法规至关重要,才能确保这一技术被正当、透明、公平的使用。 开发者比评论人更清楚这其中隐藏的问题。去年9月,Google子公司DeepMind发表了一篇关于名为Sparrow的“对话代理”的论文4,该公司的首席执行官兼联合创始人 Demis Hassabis 表示,该论文将在今年以私人测试版的形式发布。谷歌的目标是开发甄别包括引用消息来源的能力在内的功能。 一些科学家也认为,目前,ChatGPT还没有接受足够专业的内容培训,无法对技术主题有所帮助。Kareem...
清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT离婚7年后,再看刘翔和葛天的生活,可谓“一个天上,一个地下”
AI与生物

清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT离婚7年后,再看刘翔和葛天的生活,可谓“一个天上,一个地下”

衡宇 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 生物医药研发领域,一个名为BioMedGPT-1.6B的轻量级科研版基础模型刚刚开源。 参数16亿,最大特点是跨模态与知识融合。 训练数据中,包含分子、文献、专利、知识库等多尺度跨模态的生物医药大数据,并融合分子结构、知识图谱和文献文本中的知识,用于增强模型的泛化能力和可解释性。 应用任务上,BioMedGPT-1.6B则展现出了通用能“打”的效果,可以处理药物性质预测、自然语言类、跨模态等多种任务。 打造这个BioMedGPT-1.6B生物医药基础模型的团队,来自清华智能产业研究院(AIR)。 项目负责人聂再清,清华大学国强教授、AIR首席研究员,主要研究领域是大数据与AI的前沿创新,以及在健康医疗领域的产业应用,更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。 △聂再清 此次开源的BioMedGPT-1.6B,其实是他和团队正在做的BioMedGPT的单机轻量版,后者是一个适用于生物医药领域研发的通用大模型。 1.6B版本先行开源,目的是小试牛刀,同时让行业相关科研人员有东西可用。 所以,这个BioMedGPT究竟是做什么的,团队目前进展如何?在业界已有不少生物医药专业大模型的情况下,做通用大模型的考量是什么,又要如何去做? 聂再清教授向我们解答了背后的思考。 生物医药版GPT,也应具备“涌现”潜力 先来看看BioMedGPT究竟是个什么项目,进展到了哪一阶段。 聂再清教授认为,就像ChatGPT成为了NLP领域的基础大模型一样,BioMedGPT也会成为生物医药领域的基础大模型。 但在这里,“像ChatGPT”并不仅仅意味着BioMedGPT=生物医学大模型+对话能力,而是和ChatGPT一样,会出现智力涌现的情况。 只不过,这里的“智力”,指的是生物医学领域方面知识的理解、规律的发现与灵感的启迪。 这个基础模型的底座能够给药物发现、分子/蛋白质设计等应用提供底层能力,同时能够成为生物医药研究者的助手(Copilot)辅助研究者更高效的开展研究探索。 所以,能实现这种效果的BioMedGPT,架构上究竟长啥样? 整体来看,它是一个具备多个输入Encoder的模型,这些Encoder会先分别处理不同模态的输入,如分子、蛋白质和文献等。 然后,将这些不同模态的输入,进行统一表示处理,这样就能学习到不同模态之间的关联知识。 这给了模型“融会贯通”的能力,既可以读文献、查专利,又可以读分子序列、蛋白结构、实验数据。 不仅如此,BioMedGPT也是首个将多模态知识引入模型构建的项目,通过知识图谱的方式将生物医药领域的知识注入到模型中,以增强模型的泛化能力和可解释性,同时能够应对科研领域知识的快速更迭,让模型持续学习,变得更“聪明”。 基于这种融会贯通与知识增强的能力,BioMedGPT在下游的多项任务中表现出了整体的效果提升。 目前团队已经完成了实验验证阶段,用一个比较小的端到端模型证明了这种思路的可行性。 那么最终能在生物医药方面表现出“智力涌现”的模型,预计在什么规模? 聂再清教授认为,模型参数量级预计在几百亿左右,而训练这一模型达成“涌现”效果的数据量,几十亿到百亿级应该也就够了。 事实上,在ChatGPT出现之前,也就是一年多以前,聂再清和团队就已经在筹备这一项目,目前清华AIR生命科学相关团队规模已经达到50人左右。 对于BioMedGPT的未来,聂再清教授很有信心: 预计两年内,这个模型应该会在小范围内具备一定影响力,至于像ChatGPT那样成为行业通用大模型,做到那样的影响力可能至少还需要3~5年。 但即便如此,BioMedGPT模型究竟能否成功,目前仍旧是一个未知数。 同时对于大模型训练必不可少的算力和数据等方面,也仍然是业界关注的话题。 对于这些观点和想法,聂再清教授又是如何看待的? “一个理性而大胆的尝试” 大模型的发展和AI技术的更迭组成了ChatGPT为首的一波AI新浪潮。 但早在聂再清教授动念要将生物医药学科知识“塞”进大模型里时,ChatGPT还没打破沉寂。 所以为什么要做?为什么敢做? 时间回到ChatGPT刮大风之前。当时,GPT-2已经可以编故事,下象棋;等到1750亿参数GPT-3出现,已经博得众人瞩目:不仅延续了前代编故事的能力,还能写代码、答问题…… 利用大规模文本数据学习语言知识和规律,加上狂叠参数的暴力美学,GPT-3已经在通用领域任务中出现涌现能力,到GPT-3.5,基本的逻辑推理能力突然出现。...