AI与生物_Page 55_123智子教育

AI与生物

ChatGPT会改变生物医疗吗？穿内衣就算了，输血管我也忍了，那个戴口罩的，真拿观众当傻子呢

出品丨虎嗅科技组作者丨苏北佛楼蜜编辑丨陈伊凡题图丨视觉中国 2022年12 月，两名计算生物学家Casey Greene和Milton Pividori开创了一项不同寻常的实验：他们请一名非科学家的助手帮助他们改进三篇研究论文。在一份生物学手稿中，助手甚至在引用方程式时发现了一个错误，审稿顺利完成且费用适中，每份文件不到0.50美元。这名助手并非人类，而是一种名为GPT-3的人工智能算法。 “这将帮助我们提高研究人员的工作效率。” 科学家对此感到震惊。如今，基于这一通用大模型算法诞生的产品ChatGPT，一经推出，就引发了现象级关注。一时间，全球科技巨头竞相宣布其将会把ChatGPT引入自己的业务。人们或惊叹狂欢，或居安思危，ChatGPT所承载的意义似乎就快超越它本身。在百花齐放的应用场景中，生物技术领域能如何搭上ChatGPT的快车？ ChatGPT与生物技术的结合 2020年，人工智能公司OpenAI发布的一款模型，自发布初就被大肆宣传为生成式AI聊天机器人式工具，无论是创作散文、诗歌、计算机代码，还是编辑研究论文，似乎无所不能。昨日，微软（Microsoft）公司表示，将把ChatGPT整合到搜索引擎Bing和网络浏览器中，谷歌（Google）公司也在今日展示了其名为Bard的人工智能对话系统。这些系统可以根据用户提供的复杂问题，提供全面而综合的回答，小到制定详细的旅行计划，大到分析公司的运营策略。 ChatGPT在生物技术上最有前景的应用似乎是在蛋白质生成和基因测序领域。总部位于加利福尼亚的生物技术公司Profluent使用类似于ChatGPT的AI模型，创造了新型抗菌蛋白，并且已经证明它们能够在实验室中杀死细菌。这一模型名称为ProGen，是一种大型语言模型 (LLM)，它利用大量文本作为训练数据，开发分析和生成语言的能力——类似于ChatGPT，但 Progen的语言是蛋白质语言。简单来说，就是使用 AI 和大型语言模型，例如为 ChatGPT 提供支持的语言模型，来学习生物学的基本语言，并设计具有治愈疾病潜力的新蛋白质。目前，ProGen生成了一百万种不同的人工序列，研究人员从中挑选了 100种在实验室中合成，其中66种产生了类似于鸡蛋清溶菌酶的化学反应，用作阳性对照。该团队随后选择了五种新型抗菌蛋白，并测试了它们对大肠杆菌的抵抗力。其中两种新蛋白质能够杀死细菌。同时，X射线成像显示，尽管这些抗菌蛋白的氨基酸序列与任何已知的天然蛋白相差超过30%，但它们仍然折叠成与”天然表亲们”几乎相同的形状。这项研究可能意味着，未来我们能通过与AI合作，创造本不属于自然界的蛋白质，并将这些蛋白质赋予不同的功能，人类成为了微观世界里的上帝。攻克蛋白质后，ChatGPT似乎又开始朝着基因高歌猛进。科技公司Nvidia在今年的JP摩根医疗健康大会称，随着新一代基因组测序速度的不断加快和成本的不断降低，目前我们测序基因组DNA的能力已经超越了分析DNA序列并从中获取洞见的能力。而更快速有效地处理海量的基因组序列信息离不开人工智能。大型语言模型通过可以分析人类语言一样分析DNA序列，以此加快基因组的拼接、基因突变的发现，并且用人类对话的方式将发现表述给研究人员。比如，整合ChatGPT的基因测序分析系统可能在处理患者的基因组测序数据后给出——“这名患者的某基因上的突变可能导致罕见遗传病A”的结论，它似乎代替了医生。 ChatGPT是万能的吗？一切的发现和应用似乎都朝着好的方向前进。但面对似乎全能的工具，随之而来的是人类的反思和“批判”。它是万能的吗？部分看客也跟着给出了自己的答案：不是。首先，我们开始思考翻译和替代的准确率？比如，目前大型语言系统的缺陷在于“提供信息的真实度有待提高”。由于ChatGPT基于对已有语言数据的学习提供回答，它的回答也受到数据库中不真实、有偏见、或者过时知识的影响。这可能意味着对于专业性强的话题，如果大型语言系统没有经过足够专业数据的训练，很可能提供错误的回答。对于不了解专业知识的普通人来说，无法侦辨虚实。此外，由于海量的数据训练是保证ChatGPT的基础，因此在数据的输入过程中，可能存在历史偏见等遗留问题，种族、性别、文化、年龄歧视等不良因素都会隐匿在其中。想要人工剔除是十分困难的事情，如何防止ChatGPT根据这些数据输出有害言论是需要解决的另一个挑战。在Nature上发表的最新评论中，有研究人员指出，建立使用ChatGPT的规范和法规至关重要，才能确保这一技术被正当、透明、公平的使用。开发者比评论人更清楚这其中隐藏的问题。去年9月，Google子公司DeepMind发表了一篇关于名为Sparrow的“对话代理”的论文4，该公司的首席执行官兼联合创始人 Demis Hassabis 表示，该论文将在今年以私人测试版的形式发布。谷歌的目标是开发甄别包括引用消息来源的能力在内的功能。一些科学家也认为，目前，ChatGPT还没有接受足够专业的内容培训，无法对技术主题有所帮助。Kareem...

3 years前 0

AI与生物

清华AIR开源轻量版BioMedGPT！聂再清：要做生物医药版ChatGPT离婚7年后，再看刘翔和葛天的生活，可谓“一个天上，一个地下”

衡宇萧箫发自凹非寺量子位 | 公众号 QbitAI 生物医药研发领域，一个名为BioMedGPT-1.6B的轻量级科研版基础模型刚刚开源。参数16亿，最大特点是跨模态与知识融合。训练数据中，包含分子、文献、专利、知识库等多尺度跨模态的生物医药大数据，并融合分子结构、知识图谱和文献文本中的知识，用于增强模型的泛化能力和可解释性。应用任务上，BioMedGPT-1.6B则展现出了通用能“打”的效果，可以处理药物性质预测、自然语言类、跨模态等多种任务。打造这个BioMedGPT-1.6B生物医药基础模型的团队，来自清华智能产业研究院（AIR）。项目负责人聂再清，清华大学国强教授、AIR首席研究员，主要研究领域是大数据与AI的前沿创新，以及在健康医疗领域的产业应用，更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。 △聂再清此次开源的BioMedGPT-1.6B，其实是他和团队正在做的BioMedGPT的单机轻量版，后者是一个适用于生物医药领域研发的通用大模型。 1.6B版本先行开源，目的是小试牛刀，同时让行业相关科研人员有东西可用。所以，这个BioMedGPT究竟是做什么的，团队目前进展如何？在业界已有不少生物医药专业大模型的情况下，做通用大模型的考量是什么，又要如何去做？聂再清教授向我们解答了背后的思考。生物医药版GPT，也应具备“涌现”潜力先来看看BioMedGPT究竟是个什么项目，进展到了哪一阶段。聂再清教授认为，就像ChatGPT成为了NLP领域的基础大模型一样，BioMedGPT也会成为生物医药领域的基础大模型。但在这里，“像ChatGPT”并不仅仅意味着BioMedGPT=生物医学大模型+对话能力，而是和ChatGPT一样，会出现智力涌现的情况。只不过，这里的“智力”，指的是生物医学领域方面知识的理解、规律的发现与灵感的启迪。这个基础模型的底座能够给药物发现、分子/蛋白质设计等应用提供底层能力，同时能够成为生物医药研究者的助手（Copilot）辅助研究者更高效的开展研究探索。所以，能实现这种效果的BioMedGPT，架构上究竟长啥样？整体来看，它是一个具备多个输入Encoder的模型，这些Encoder会先分别处理不同模态的输入，如分子、蛋白质和文献等。然后，将这些不同模态的输入，进行统一表示处理，这样就能学习到不同模态之间的关联知识。这给了模型“融会贯通”的能力，既可以读文献、查专利，又可以读分子序列、蛋白结构、实验数据。不仅如此，BioMedGPT也是首个将多模态知识引入模型构建的项目，通过知识图谱的方式将生物医药领域的知识注入到模型中，以增强模型的泛化能力和可解释性，同时能够应对科研领域知识的快速更迭，让模型持续学习，变得更“聪明”。基于这种融会贯通与知识增强的能力，BioMedGPT在下游的多项任务中表现出了整体的效果提升。目前团队已经完成了实验验证阶段，用一个比较小的端到端模型证明了这种思路的可行性。那么最终能在生物医药方面表现出“智力涌现”的模型，预计在什么规模？聂再清教授认为，模型参数量级预计在几百亿左右，而训练这一模型达成“涌现”效果的数据量，几十亿到百亿级应该也就够了。事实上，在ChatGPT出现之前，也就是一年多以前，聂再清和团队就已经在筹备这一项目，目前清华AIR生命科学相关团队规模已经达到50人左右。对于BioMedGPT的未来，聂再清教授很有信心：预计两年内，这个模型应该会在小范围内具备一定影响力，至于像ChatGPT那样成为行业通用大模型，做到那样的影响力可能至少还需要3~5年。但即便如此，BioMedGPT模型究竟能否成功，目前仍旧是一个未知数。同时对于大模型训练必不可少的算力和数据等方面，也仍然是业界关注的话题。对于这些观点和想法，聂再清教授又是如何看待的？ “一个理性而大胆的尝试” 大模型的发展和AI技术的更迭组成了ChatGPT为首的一波AI新浪潮。但早在聂再清教授动念要将生物医药学科知识“塞”进大模型里时，ChatGPT还没打破沉寂。所以为什么要做？为什么敢做？时间回到ChatGPT刮大风之前。当时，GPT-2已经可以编故事，下象棋；等到1750亿参数GPT-3出现，已经博得众人瞩目：不仅延续了前代编故事的能力，还能写代码、答问题…… 利用大规模文本数据学习语言知识和规律，加上狂叠参数的暴力美学，GPT-3已经在通用领域任务中出现涌现能力，到GPT-3.5，基本的逻辑推理能力突然出现。...

3 years前 3

AI与生物

《理解未来》科学讲座聚焦ChatGPT等探索生物制药领域搭建模型蔡萝莉终于摘下口罩，真容被嘲像换了个人，网友：榜一大哥连夜跑

《理解未来》科学讲座AI for Science系列03期，10日在线上开讲，图为与会学者展开讨论。　张伟帅　摄　　中新网北京2月14日电 (张伟帅张素)近日在一场《理解未来》科学讲座上，加拿大魁北克省人工智能研究中心(Mila)副教授、加拿大高等研究院(CIFAR)人工智能讲席教授唐建表示，语言生成模型如ChatGPT在对话系统领域取得很大突破，研究者们正在探索能否在生物制药领域搭建类似的人工智能模型。　　唐建指出，人们在人工智能与生物医药的交叉领域已有诸多探索，包括GeoDiff应用在小分子的三维构象预测、E3Bind应用在蛋白质—配体复合物结构预测、ProtSeed同时生成新的蛋白质结构和序列等。　　本次活动中，中国科学院院士、北京大学教授、北京大数据研究院院长、北京科学智能研究院院长鄂维南以《AI for Science：一场正在发生的科技革命》为题，阐述AI for Science带来科研范式变革和新的产业业态。　　鄂维南说，化学、材料、生物、工程等传统领域都将成为AI的主战场，同时也将催生新一代产业模式。此外，在“AI+Science”的驱动下，科学研究将从“小农作坊”模式转变为“安卓”模式，“平台科研”将成为全新的科研范式，“社区建设”将成为重要趋势。　　这位学者呼吁更多人有效利用这一机会，将“AI+Science”的“安卓”模式基础设施建设起来，并充分利用这一科学发展空间，让中国走在全球科学领域的前沿。　　《理解未来》科学讲座AI for Science系列03期“AI4Science和ChatGPT，生物医药的契机？”，还设有前瞻对话环节。与会者主要围绕“AI+生物医药前景”“生成式AI对生命科学领域带来的影响”“如何促进AI专家与科学家加强合作”等议题展开讨论。　　“AI将可能的文本、知识、代码进行训练，当AI能力达到一定强度后，我们就通过模型开发对大量数据进行学习和训练。其中，ChatGPT可以产生全新的原创内容，具有一定的创造力，像一本百科全书，用户则可以很快从中获取需要的知识。”唐建说。　　未来论坛理事、北京大学李兆基讲席教授、北京大学理学部主任谢晓亮在参加前瞻对话环节时说，基于技术突破，生命科学基因组学、冷冻电镜等生命科学领域逐渐从“数据缺乏学科”转变为“大数据科学”，从“定性学科”转变为“定量学科”。他也提醒，AI需要大数据，因此数据质量愈发重要。(完)

3 years前 3

AI与生物

科技突破与旅游复苏：LinearDesign助力疫苗稳定，携程跟团游再现高峰，AI禁令引发热议，A

百度生物计算研究成果登上《Nature》正刊 5月2日凌晨，国际顶级学术期刊《Nature》正刊发表了百度与合作单位在生物计算领域的突破性成果，提出mRNA序列优化算法LinearDesign。mRNA疫苗被认为是遏制COVID-19的可行工具，但mRNA疫苗和药物仍面临一些挑战。其中如何高效设计出稳定、成药性更好的mRNA序列是难点之一。百度运用自然语言处理中网格解析（Lattice Parsing）技术，对mRNA疫苗序列进行优化，提升疫苗稳定性和有效性。LinearDesign算法将序列设计的海量计算简化为自然语言处理中的经典问题，让“大海捞针”变成了“按图索骥”。 “五一”假期实现国内旅游收入1480.56亿元，同比增长128.9% 5月3日，据文旅部消息，2023年“五一”假期，文化和旅游行业复苏势头强劲，全国假日市场平稳有序。经文化和旅游部数据中心测算，全国国内旅游出游合计2.74亿人次，同比增长70.83%，按可比口径恢复至2019年同期的119.09%；实现国内旅游收入1480.56亿元，同比增长128.90%，按可比口径恢复至2019年同期的100.66%。携程：五一用户飞行距离达四年巅峰，跟团游大增11倍 5月3日，携程发布的《2023年五一出游数据报告》显示，“五一”期间用户平均出游半径较去年同期增长25%，其中飞机出行平均距离为1638km，约等于上海飞往呼和浩特的距离，达到4年来巅峰，基本恢复至2019年同期水平。此外，五一黄金周国内跟团游订单量同比去年暴增11倍。三星电子禁止员工使用ChatGPT等生成式AI 拟推出内部工具出于安全考虑，近日，三星电子已禁止员工使用ChatGPT、Google Bard和Bing等流行的生成式AI工具，正准备推出内部工具。公司内部备忘录显示，三星电子担心传输到生成式AI平台的数据被存储在外部服务器上，导致其难以被追回和删除，并可能最终被泄露给其他用户。三星电子的新规禁止在公司所属的电脑、平板电脑、电话及内部网络使用生成式AI系统，但不影响出售给消费者的设备，由用户自行决定。此前，摩根大通、美国银行和花旗等华尔街大行已禁止或限制使用ChatGPT。苹果、谷歌拟定行业规范，减少不必要设备跟踪当地时间5月2日，苹果宣布和谷歌联合提交了一份拟议的行业规范，以帮助打击滥用蓝牙位置跟踪。该规范将允许蓝牙位置跟踪设备与iOS和Android平台上未经授权的跟踪检测和警报兼容。三星，Tile，Chipolo，eufy Security和Pebblebee表示支持规范草案。微软计划推出在专用云服务器上运行的ChatGPT版本，价格是常规版本的十倍 5月2日消息，据报道，本季度晚些时候，微软Azure云服务器部门计划销售一个在专用云服务器上运行的ChatGPT版本，该版本的数据将与其他客户的数据分开保存。据了解，这样做是为了让客户放心，他们的秘密不会泄露到ChatGPT的主系统。但这款产品的成本可能是客户目前使用ChatGPT常规版本的10倍之多。【如果您有新闻线索，欢迎向我们报料，一经采纳有费用酬谢。报料微信关注：ihxdsb，报料QQ：3386405712】

3 years前 2

55/164 上一页 52 53 54 55 56 57 58 下一页