ChatGPT会改变生物医疗吗?穿内衣就算了,输血管我也忍了,那个戴口罩的,真拿观众当傻子呢
AI与生物

ChatGPT会改变生物医疗吗?穿内衣就算了,输血管我也忍了,那个戴口罩的,真拿观众当傻子呢

出品丨虎嗅科技组 作者丨苏北佛楼蜜 编辑丨陈伊凡 题图丨视觉中国 2022年12 月,两名计算生物学家Casey Greene和Milton Pividori开创了一项不同寻常的实验:他们请一名非科学家的助手帮助他们改进三篇研究论文。在一份生物学手稿中,助手甚至在引用方程式时发现了一个错误,审稿顺利完成且费用适中,每份文件不到0.50美元。 这名助手并非人类,而是一种名为GPT-3的人工智能算法。 “这将帮助我们提高研究人员的工作效率。” 科学家对此感到震惊。 如今,基于这一通用大模型算法诞生的产品ChatGPT,一经推出,就引发了现象级关注。一时间,全球科技巨头竞相宣布其将会把ChatGPT引入自己的业务。人们或惊叹狂欢,或居安思危,ChatGPT所承载的意义似乎就快超越它本身。在百花齐放的应用场景中,生物技术领域能如何搭上ChatGPT的快车? ChatGPT与生物技术的结合 2020年,人工智能公司OpenAI发布的一款模型,自发布初就被大肆宣传为生成式AI聊天机器人式工具,无论是创作散文、诗歌、计算机代码,还是编辑研究论文,似乎无所不能。 昨日,微软(Microsoft)公司表示,将把ChatGPT整合到搜索引擎Bing和网络浏览器中,谷歌(Google)公司也在今日展示了其名为Bard的人工智能对话系统。这些系统可以根据用户提供的复杂问题,提供全面而综合的回答,小到制定详细的旅行计划,大到分析公司的运营策略。 ChatGPT在生物技术上最有前景的应用似乎是在蛋白质生成和基因测序领域。 总部位于加利福尼亚的生物技术公司Profluent使用类似于ChatGPT的AI模型,创造了新型抗菌蛋白,并且已经证明它们能够在实验室中杀死细菌。 这一模型名称为ProGen,是一种大型语言模型 (LLM),它利用大量文本作为训练数据,开发分析和生成语言的能力——类似于ChatGPT,但 Progen的语言是蛋白质语言。 简单来说,就是使用 AI 和大型语言模型,例如为 ChatGPT 提供支持的语言模型,来学习生物学的基本语言,并设计具有治愈疾病潜力的新蛋白质。 目前,ProGen生成了一百万种不同的人工序列,研究人员从中挑选了 100种在实验室中合成,其中66种产生了类似于鸡蛋清溶菌酶的化学反应,用作阳性对照。 该团队随后选择了五种新型抗菌蛋白,并测试了它们对大肠杆菌的抵抗力。其中两种新蛋白质能够杀死细菌。  同时,X射线成像显示,尽管这些抗菌蛋白的氨基酸序列与任何已知的天然蛋白相差超过30%,但它们仍然折叠成与”天然表亲们”几乎相同的形状。 这项研究可能意味着,未来我们能通过与AI合作,创造本不属于自然界的蛋白质,并将这些蛋白质赋予不同的功能,人类成为了微观世界里的上帝。 攻克蛋白质后,ChatGPT似乎又开始朝着基因高歌猛进。 科技公司Nvidia在今年的JP摩根医疗健康大会称,随着新一代基因组测序速度的不断加快和成本的不断降低,目前我们测序基因组DNA的能力已经超越了分析DNA序列并从中获取洞见的能力。而更快速有效地处理海量的基因组序列信息离不开人工智能。 大型语言模型通过可以分析人类语言一样分析DNA序列,以此加快基因组的拼接、基因突变的发现,并且用人类对话的方式将发现表述给研究人员。 比如,整合ChatGPT的基因测序分析系统可能在处理患者的基因组测序数据后给出——“这名患者的某基因上的突变可能导致罕见遗传病A”的结论,它似乎代替了医生。 ChatGPT是万能的吗? 一切的发现和应用似乎都朝着好的方向前进。但面对似乎全能的工具,随之而来的是人类的反思和“批判”。它是万能的吗? 部分看客也跟着给出了自己的答案:不是。 首先,我们开始思考翻译和替代的准确率? 比如,目前大型语言系统的缺陷在于“提供信息的真实度有待提高”。由于ChatGPT基于对已有语言数据的学习提供回答,它的回答也受到数据库中不真实、有偏见、或者过时知识的影响。 这可能意味着对于专业性强的话题,如果大型语言系统没有经过足够专业数据的训练,很可能提供错误的回答。对于不了解专业知识的普通人来说,无法侦辨虚实。 此外,由于海量的数据训练是保证ChatGPT的基础,因此在数据的输入过程中,可能存在历史偏见等遗留问题,种族、性别、文化、年龄歧视等不良因素都会隐匿在其中。想要人工剔除是十分困难的事情,如何防止ChatGPT根据这些数据输出有害言论是需要解决的另一个挑战。 在Nature上发表的最新评论中,有研究人员指出,建立使用ChatGPT的规范和法规至关重要,才能确保这一技术被正当、透明、公平的使用。 开发者比评论人更清楚这其中隐藏的问题。去年9月,Google子公司DeepMind发表了一篇关于名为Sparrow的“对话代理”的论文4,该公司的首席执行官兼联合创始人 Demis Hassabis 表示,该论文将在今年以私人测试版的形式发布。谷歌的目标是开发甄别包括引用消息来源的能力在内的功能。 一些科学家也认为,目前,ChatGPT还没有接受足够专业的内容培训,无法对技术主题有所帮助。Kareem...
清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT离婚7年后,再看刘翔和葛天的生活,可谓“一个天上,一个地下”
AI与生物

清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT离婚7年后,再看刘翔和葛天的生活,可谓“一个天上,一个地下”

衡宇 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 生物医药研发领域,一个名为BioMedGPT-1.6B的轻量级科研版基础模型刚刚开源。 参数16亿,最大特点是跨模态与知识融合。 训练数据中,包含分子、文献、专利、知识库等多尺度跨模态的生物医药大数据,并融合分子结构、知识图谱和文献文本中的知识,用于增强模型的泛化能力和可解释性。 应用任务上,BioMedGPT-1.6B则展现出了通用能“打”的效果,可以处理药物性质预测、自然语言类、跨模态等多种任务。 打造这个BioMedGPT-1.6B生物医药基础模型的团队,来自清华智能产业研究院(AIR)。 项目负责人聂再清,清华大学国强教授、AIR首席研究员,主要研究领域是大数据与AI的前沿创新,以及在健康医疗领域的产业应用,更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。 △聂再清 此次开源的BioMedGPT-1.6B,其实是他和团队正在做的BioMedGPT的单机轻量版,后者是一个适用于生物医药领域研发的通用大模型。 1.6B版本先行开源,目的是小试牛刀,同时让行业相关科研人员有东西可用。 所以,这个BioMedGPT究竟是做什么的,团队目前进展如何?在业界已有不少生物医药专业大模型的情况下,做通用大模型的考量是什么,又要如何去做? 聂再清教授向我们解答了背后的思考。 生物医药版GPT,也应具备“涌现”潜力 先来看看BioMedGPT究竟是个什么项目,进展到了哪一阶段。 聂再清教授认为,就像ChatGPT成为了NLP领域的基础大模型一样,BioMedGPT也会成为生物医药领域的基础大模型。 但在这里,“像ChatGPT”并不仅仅意味着BioMedGPT=生物医学大模型+对话能力,而是和ChatGPT一样,会出现智力涌现的情况。 只不过,这里的“智力”,指的是生物医学领域方面知识的理解、规律的发现与灵感的启迪。 这个基础模型的底座能够给药物发现、分子/蛋白质设计等应用提供底层能力,同时能够成为生物医药研究者的助手(Copilot)辅助研究者更高效的开展研究探索。 所以,能实现这种效果的BioMedGPT,架构上究竟长啥样? 整体来看,它是一个具备多个输入Encoder的模型,这些Encoder会先分别处理不同模态的输入,如分子、蛋白质和文献等。 然后,将这些不同模态的输入,进行统一表示处理,这样就能学习到不同模态之间的关联知识。 这给了模型“融会贯通”的能力,既可以读文献、查专利,又可以读分子序列、蛋白结构、实验数据。 不仅如此,BioMedGPT也是首个将多模态知识引入模型构建的项目,通过知识图谱的方式将生物医药领域的知识注入到模型中,以增强模型的泛化能力和可解释性,同时能够应对科研领域知识的快速更迭,让模型持续学习,变得更“聪明”。 基于这种融会贯通与知识增强的能力,BioMedGPT在下游的多项任务中表现出了整体的效果提升。 目前团队已经完成了实验验证阶段,用一个比较小的端到端模型证明了这种思路的可行性。 那么最终能在生物医药方面表现出“智力涌现”的模型,预计在什么规模? 聂再清教授认为,模型参数量级预计在几百亿左右,而训练这一模型达成“涌现”效果的数据量,几十亿到百亿级应该也就够了。 事实上,在ChatGPT出现之前,也就是一年多以前,聂再清和团队就已经在筹备这一项目,目前清华AIR生命科学相关团队规模已经达到50人左右。 对于BioMedGPT的未来,聂再清教授很有信心: 预计两年内,这个模型应该会在小范围内具备一定影响力,至于像ChatGPT那样成为行业通用大模型,做到那样的影响力可能至少还需要3~5年。 但即便如此,BioMedGPT模型究竟能否成功,目前仍旧是一个未知数。 同时对于大模型训练必不可少的算力和数据等方面,也仍然是业界关注的话题。 对于这些观点和想法,聂再清教授又是如何看待的? “一个理性而大胆的尝试” 大模型的发展和AI技术的更迭组成了ChatGPT为首的一波AI新浪潮。 但早在聂再清教授动念要将生物医药学科知识“塞”进大模型里时,ChatGPT还没打破沉寂。 所以为什么要做?为什么敢做? 时间回到ChatGPT刮大风之前。当时,GPT-2已经可以编故事,下象棋;等到1750亿参数GPT-3出现,已经博得众人瞩目:不仅延续了前代编故事的能力,还能写代码、答问题…… 利用大规模文本数据学习语言知识和规律,加上狂叠参数的暴力美学,GPT-3已经在通用领域任务中出现涌现能力,到GPT-3.5,基本的逻辑推理能力突然出现。...
《理解未来》科学讲座聚焦ChatGPT等 探索生物制药领域搭建模型蔡萝莉终于摘下口罩,真容被嘲像换了个人,网友:榜一大哥连夜跑
AI与生物

《理解未来》科学讲座聚焦ChatGPT等 探索生物制药领域搭建模型蔡萝莉终于摘下口罩,真容被嘲像换了个人,网友:榜一大哥连夜跑

《理解未来》科学讲座AI for Science系列03期,10日在线上开讲,图为与会学者展开讨论。 张伟帅 摄   中新网北京2月14日电 (张伟帅 张素)近日在一场《理解未来》科学讲座上,加拿大魁北克省人工智能研究中心(Mila)副教授、加拿大高等研究院(CIFAR)人工智能讲席教授唐建表示,语言生成模型如ChatGPT在对话系统领域取得很大突破,研究者们正在探索能否在生物制药领域搭建类似的人工智能模型。   唐建指出,人们在人工智能与生物医药的交叉领域已有诸多探索,包括GeoDiff应用在小分子的三维构象预测、E3Bind应用在蛋白质—配体复合物结构预测、ProtSeed同时生成新的蛋白质结构和序列等。   本次活动中,中国科学院院士、北京大学教授、北京大数据研究院院长、北京科学智能研究院院长鄂维南以《AI for Science:一场正在发生的科技革命》为题,阐述AI for Science带来科研范式变革和新的产业业态。   鄂维南说,化学、材料、生物、工程等传统领域都将成为AI的主战场,同时也将催生新一代产业模式。此外,在“AI+Science”的驱动下,科学研究将从“小农作坊”模式转变为“安卓”模式,“平台科研”将成为全新的科研范式,“社区建设”将成为重要趋势。   这位学者呼吁更多人有效利用这一机会,将“AI+Science”的“安卓”模式基础设施建设起来,并充分利用这一科学发展空间,让中国走在全球科学领域的前沿。   《理解未来》科学讲座AI for Science系列03期“AI4Science和ChatGPT,生物医药的契机?”,还设有前瞻对话环节。与会者主要围绕“AI+生物医药前景”“生成式AI对生命科学领域带来的影响”“如何促进AI专家与科学家加强合作”等议题展开讨论。   “AI将可能的文本、知识、代码进行训练,当AI能力达到一定强度后,我们就通过模型开发对大量数据进行学习和训练。其中,ChatGPT可以产生全新的原创内容,具有一定的创造力,像一本百科全书,用户则可以很快从中获取需要的知识。”唐建说。   未来论坛理事、北京大学李兆基讲席教授、北京大学理学部主任谢晓亮在参加前瞻对话环节时说,基于技术突破,生命科学基因组学、冷冻电镜等生命科学领域逐渐从“数据缺乏学科”转变为“大数据科学”,从“定性学科”转变为“定量学科”。他也提醒,AI需要大数据,因此数据质量愈发重要。(完)
科技突破与旅游复苏:LinearDesign助力疫苗稳定,携程跟团游再现高峰,AI禁令引发热议,A
AI与生物

科技突破与旅游复苏:LinearDesign助力疫苗稳定,携程跟团游再现高峰,AI禁令引发热议,A

百度生物计算研究成果登上《Nature》正刊 5月2日凌晨,国际顶级学术期刊《Nature》正刊发表了百度与合作单位在生物计算领域的突破性成果,提出mRNA序列优化算法LinearDesign。mRNA疫苗被认为是遏制COVID-19的可行工具, 但mRNA疫苗和药物仍面临一些挑战。其中如何高效设计出稳定、成药性更好的mRNA序列是难点之一。百度运用自然语言处理中网格解析(Lattice Parsing)技术,对mRNA疫苗序列进行优化,提升疫苗稳定性和有效性。LinearDesign算法将序列设计的海量计算简化为自然语言处理中的经典问题,让“大海捞针”变成了“按图索骥”。 “五一”假期实现国内旅游收入1480.56亿元,同比增长128.9% 5月3日,据文旅部消息,2023年“五一”假期,文化和旅游行业复苏势头强劲,全国假日市场平稳有序。经文化和旅游部数据中心测算,全国国内旅游出游合计2.74亿人次,同比增长70.83%,按可比口径恢复至2019年同期的119.09%;实现国内旅游收入1480.56亿元,同比增长128.90%,按可比口径恢复至2019年同期的100.66%。 携程:五一用户飞行距离达四年巅峰,跟团游大增11倍 5月3日,携程发布的《2023年五一出游数据报告》显示,“五一”期间用户平均出游半径较去年同期增长25%,其中飞机出行平均距离为1638km,约等于上海飞往呼和浩特的距离,达到4年来巅峰,基本恢复至2019年同期水平。此外,五一黄金周国内跟团游订单量同比去年暴增11倍。 三星电子禁止员工使用ChatGPT等生成式AI 拟推出内部工具 出于安全考虑,近日,三星电子已禁止员工使用ChatGPT、Google Bard和Bing等流行的生成式AI工具,正准备推出内部工具。公司内部备忘录显示,三星电子担心传输到生成式AI平台的数据被存储在外部服务器上,导致其难以被追回和删除,并可能最终被泄露给其他用户。三星电子的新规禁止在公司所属的电脑、平板电脑、电话及内部网络使用生成式AI系统,但不影响出售给消费者的设备,由用户自行决定。此前,摩根大通、美国银行和花旗等华尔街大行已禁止或限制使用ChatGPT。 苹果、谷歌拟定行业规范,减少不必要设备跟踪 当地时间5月2日,苹果宣布和谷歌联合提交了一份拟议的行业规范,以帮助打击滥用蓝牙位置跟踪。该规范将允许蓝牙位置跟踪设备与iOS和Android平台上未经授权的跟踪检测和警报兼容。三星,Tile,Chipolo,eufy Security和Pebblebee表示支持规范草案。 微软计划推出在专用云服务器上运行的ChatGPT版本,价格是常规版本的十倍 5月2日消息,据报道,本季度晚些时候,微软Azure云服务器部门计划销售一个在专用云服务器上运行的ChatGPT版本,该版本的数据将与其他客户的数据分开保存。据了解,这样做是为了让客户放心,他们的秘密不会泄露到ChatGPT的主系统。但这款产品的成本可能是客户目前使用ChatGPT常规版本的10倍之多。 【如果您有新闻线索,欢迎向我们报料,一经采纳有费用酬谢。报料微信关注:ihxdsb,报料QQ:3386405712】