ChatGPT和ChatGPT们,你都了解了吗?北京日报客户端2023-02-21 18:24北京日报客户端2023-02-21 18:24
AI与生物

ChatGPT和ChatGPT们,你都了解了吗?北京日报客户端2023-02-21 18:24北京日报客户端2023-02-21 18:24

北京日报客户端 | 记者 汪丹 说到最近网上最火的科技名词,非“ChatGPT”莫属。ChatGPT(Chat Generative Pre-trained Transformer)是美国一家人工智能研究公司研发的聊天机器人程序,不仅能与人有问有答,文章也写得有模有样,因此有些人称之为史上最强AI(人工智能),甚至还有人联想到科幻片中人工智能最终取代人类的情节。记得上一轮掀起舆论热潮的人工智能事件,还是2016年AlphaGo以4∶1战胜世界顶级围棋棋手李世石。今天我们请知名科普作者张田勘来说说以ChatGPT为代表的人工智能对当前社会发展的影响,以及其现有成果在生物科学领域的作用。 接受强化训练的生成式AI: 对接用户需求创造新内容 现在全世界都在谈论的ChatGPT是一个人工智能撰稿和聊天工具,去年11月一经推出,便在社交媒体上迅速走红,至今月活跃用户已过亿。ChatGPT能够通过学习和理解人类的语言来进行对话、回答各种问题,还能根据要求完成视频脚本、文案、论文、代码等写作任务。它的成功,源于以深度学习为代表的人工智能技术的长期积累。从属性上看,ChatGPT其实是一个大型语言模型(LLM),接受过大量文本数据的训练,能够对各种各样的问题输入生成类似人类的应答结果和反应,因此,也可以称它为容生成器。 AI需要具备3个要素:数据、算力及算法。数据是知识原料,算力及算法则提供“计算智能”以学习知识并实现特定目标。人们对AI有多种分类,以AI“能做什么工作”和“完成什么任务”作为标准,可以简单将其分为反应式AI(分析型AI)和生成式AI。 反应式AI根据预编程规则对不同类型的刺激做出反应,由于不使用内存,所以无法通过新数据进行学习。1997年击败国际象棋冠军加里·卡斯帕罗夫的 IBM深蓝超级计算机就是反应式AI。 而生成式AI获得了大量数据、信息,并且经过了强化训练和深度学习,以及类似于神经网络的反馈纠错机制,所以能完成很多工作,产生很多产品。用一句话概括其本质:根据用户的具体需求创造新内容。 从ChatGPT的全称“Chat Generative Pre-trained Transformer(生成式预训练转换器)”就能看出,它是一款可以自行生成许多内容的AI,包括各类文本、文章、与人对话、翻译、编写代码、绘画、制作视频等。 由于受各种因素的制约,ChatGPT生成的内容也有不少错误,尤其是关于社会、文化、人文、哲学、政治、经济和历史方面的内容。但是在自然科学领域,由于有公认的定律和共同的认知,如“原子是由带正电的原子核和核外带负电的电子构成的”,ChatGPT生成的内容出错率相对较少。 正因如此,虽然生成式AI在所有领域都有用武之地,但类似ChatGPT的生成式AI在自然科学领域的应用更受青睐。生物医学研究、医疗和生命科学都需要生成式AI,ChatGPT只是其中一种。 准确预测蛋白质结构: 可加快新药和疫苗研发 目前,生成式AI在生物医学领域的用途方兴未艾。生成式AI不仅能分析成千上万种蛋白质,还可以生成新的蛋白质,甚至是自然界从未出现过的蛋白质。 过去,认识和精确测定蛋白质的构型需要耗费大量的时间和精力,还未必能测得准,给药物、疫苗研发和疾病治疗造成了阻碍。如果生成式AI的结果既准确又快速,就可以知道一些病毒变异后的蛋白质结构,如新冠病毒的S蛋白变异,从而加快研发新药和疫苗的速度。 2020年,英国深度思考公司研发的阿尔法折叠2(Alpha Fold-2)有了惊人成就。这款生成式AI在2020年举行的第14届“蛋白质结构预测关键评估”大赛中大放异彩。它测定的大部分蛋白质结构非常准确,不仅与实验方法测得的蛋白质结构的精确度相同,还远超解析新蛋白质结构的其他方法。具体来说,阿尔法折叠2能在几分钟内预测出一个典型蛋白质的结构,并能够在几天内生成高精度的结构。2022年初,阿尔法折叠2又测出了2.2亿个蛋白质的结构,几乎涵盖了DNA数据库中已知生物的所有蛋白质。 2022年11月,Meta公司(前身为Facebook)奋起直追,其名为ESMFold的生成式AI软件预测了约6亿个蛋白质的结构,这些蛋白质来自细菌、病毒和其他尚未命名的微生物。虽然该软件的准确性不如阿尔法折叠2,但在预测结构方面速度要快约60倍。 ESMFold的原理与ChatGPT基本相似,也是一种大型语言模型,只不过,训练它的内容不是自然语言,而是生物基因语言,也就是通过碱基排列的顺序和规律来检测蛋白质。 举例来说,对于ESMFold的训练,是把已知蛋白质的氨基酸序列“投喂”给它们,正如训练ChatGPT要把自然语言的词语根据语法进行“投喂”一样。自然界的蛋白质可以用20个不同的氨基酸链表示,每个氨基酸链由一个字母表示,这种训练使ESMFold对蛋白质序列有直观理解,并能理解蛋白质序列包含的蛋白质形状信息。在这样的深度学习之后,ESMFold学会了在氨基酸比例模糊的情况下“自动补全”信息。 研究团队把ESMFold应用于大规模测序的“宏基因组”DNA数据库,这些DNA来自于环境,包括土壤、海水、人类肠道、皮肤和其他微生物栖息地。ESMFold通过算法,能结合蛋白质结构和序列之间关系的信息生成预测结构。它总共预测了超过6.17亿个蛋白质的结构,只花了两周时间。而且,在6.17亿个蛋白质测试中,超过1/3的预测是高质量的,有数以百万计的蛋白质结构是全新的。 自然界酶类从无到有: 人工酶氨基酸序列变化也无损活性 生成式AI的强大还体现在可以生成自然界中没有的蛋白质和物质,为人类的衣食住行生产、提供新原料和产品。 美国一家人工智能研究企业研发了另一种生成式AI,称为人工酶人工智能系统ProGen。这是一种专门检测酶(由活体细胞产生的一种特殊蛋白质,人体内几乎所有生化反应都必须有酶参与才能完成)和生成酶的AI软件。在实验室测试中,ProGen设计的一些人工酶与自然界中发现的酶一样有效,即使其氨基酸序列与任何已知的天然蛋白质存在显著差异,也仍然有生物活性。 特定的蛋白质各有其单独的氨基酸排列顺序。研究人员把1.9万个酶家族的2.8亿种不同蛋白质的氨基酸序列输入ProGen机器学习模型中,同时提供相关蛋白质特性作为控制标签,然后让系统花费数周时间来“消化”这些信息。此后,研究人员再把信息收窄,使用来自5个溶菌酶家族的5.6万种蛋白质氨基酸序列,以及有关这些蛋白质的一些信息来对模型进行微调。 根据学习的内容,ProGen迅速生成了100万个蛋白质序列,研究团队在其中选择了100个进行测试后发现:来自5个溶菌酶家族的所有人工蛋白质均显示出活性,且73%具有抗菌功能,而在天然蛋白质中仅59%具有抗菌功能。 更令人惊讶的是,在另一轮筛选中研究团队发现,即使只有31.4%的序列与目前已知的天然蛋白质相似,生成式AI设计的酶类依然显示出了生物活性。与之相反的是,天然蛋白质如果发生任何一个突变,都有可能失去生物活性。 这些研究结果总结起来,彰显了三方面的意义:一是ProGen生成的人工蛋白质不仅可以正确表达,还展示出与蛋白质天然折叠相类似的结构;二是AI生成的蛋白质即便只有部分氨基酸序列与天然蛋白质的序列相似,也具有生物活性,但天然蛋白没有这个优势;三是人工智能可以设计出在自然界从未有过的新物质和新产品。 这意味着,如果采用生成式AI设计和生产蛋白药物、食品及生物产品(如降解塑料的产品),会更快更有效,当然其安全性还需通过进一步的研究来检验。换句话说,如果人工智能生成的蛋白质能够像自然生成的蛋白质一样,也意味着未来人工智能可以设计人类所需要的各类产品,首要的就是满足人类生存的食物和药品。 帮助诊断疾病和优生: 最终结果仍需人类审核决定 现在,生成式AI已经发展到通过图像、血液、组织扫描结果,来检测、诊断和预测心血管病、眼部疾病、糖尿病,以及结直肠癌、肺癌、乳腺癌、前列腺癌等多种癌症。 心脏病是一类严重的心血管疾病。心电图信号最常被用作筛查心脏病的工具。新加坡南洋理工大学等机构的研究人员利用一种名为Gabor-CNN的人工智能机器学习算法设计出了一种生成式AI诊断工具,能模仿人类大脑的结构和功能,使用心电图诊断冠状动脉疾病、心肌梗死和充血性心力衰竭。试验结果显示,这种人工智能有助于自动识别健康人群和不同心血管疾病患者相关的心电图信号,其准确率能超过98.5%。 癌症同样可以利用AI来诊断和治疗。对于结直肠癌和乳腺癌,现在一般是通过观察CT照片和组织切片来进行诊断。中国中南大学等机构的研究人员从中国、德国和美国的8803名受试者和13个独立的癌症研究中心收集了超过1.3万张结直肠癌图像,利用这些随机选择的图像,研究人员构建了一种AI软件来识别结直肠癌的图像。初步测试结果显示,AI软件能检测出大部分结直肠癌图片,堪比真正的病理学家,甚至在很多情况下表现得更好。当然,最后的诊断还需经过病理学家的把关和审查。 还有一个受到医学关注的领域是不孕不育。现代生活方式和环境变化造成约有15%的夫妇不育,其中精子质量差是重要的原因之一。传统的做法是对精子活检来检测质量,但这个任务如果由AI来完成会更出色。...
ChatGPT-4V:多模态能力的超越与局限
AI与地理

ChatGPT-4V:多模态能力的超越与局限

本文介绍了ChatGPT-4V,这是OpenAI发布的一款具备多模态能力的模型。它可以实现物体检测、人脸识别、文本识别以及识别复杂验证码等功能。同时,该模型还可以将播客翻译成其他语言,大幅降低开发者的人力成本。然而,该模型在一些复杂场景下,如理解复杂图像、空间关系、重叠物体的分离等 tasks 上,表现仍有待提高。
ChatGPT的科学和不科学第一财经2023-02-09 18:44第一财经2023-02-09 18:44
AI与化学

ChatGPT的科学和不科学第一财经2023-02-09 18:44第一财经2023-02-09 18:44

ChatGPT于去年11月30日发布,我就开始试用了,写过几篇小文章。那时在海外和业内人圈子里,火了一波,国内大部分人都没反应。 春季后,券商报告强推,微软百亿投资openAI,百度紧跟形势不掉队,国内爆炒ChatGPT的热度甚至超过国外,大超预期。 然而,ChatGPT不开放来自中国地区IP和手机号码的用户注册,大部分人没有真正用过。有人用国外账号架设了中继服务器,给国内朋友使用。受条件所限,大部分使用者浅尝辄止、看热闹的多。有些文章甚至存在夸大ChatGPT能力的情况。 所以,我想用我这两个月的使用心得,聊聊科学使用ChatGPT和不科学使用ChatGPT的地方。 这些科学和不科学的地方,也反映了大家对ChatGPT在具体应用场景中的科学性的思考。 01 先说不科学的地方。 1、当搜索引擎用 由于谷歌和百度入局,很多人讨论将来搜索引擎会被替代。所以有人很自然地,现在就把ChatGPT当搜索引擎来使用和测试。 这个问题很大! 如果输入“如何做鱼香肉丝”这个问题,搜索引擎找到已经存在于互联网上的做法,并把结果排序。而ChatGPT给出的是看起来像“做法”的一段文字。这段文字不是从一个完整的做菜秘籍来的,而是它的算法根据每个字的概率和上下文,一个字一个词产生的。你貌似看到了一个完整的做法,但这个做法从来没有存在过,也没有人用过。 ChatGPT只是造了一段做菜的文字。要理解这一点,需要回到ChatGPT的模型。 ChatGPT模型综合使用了in-context learning、RLHF等模型。此处不展开技术部分的讨论。其中一部分模型是用类似我们英语考试最熟悉的、完形填空的方法来训练的。 比如一道完形填空题:我喜欢___的感觉。 空格里,可以填成我喜欢跑步的感觉,可以填成我喜欢炒菜的感觉,也可以填我喜欢发呆的感觉。填什么取决于对话场景。 如果填成我喜欢被杀死的感觉,这种场景出现的概率很低。算法会降低“我喜欢”后面跟“被杀死”三个字的概率。 如果填成我喜欢桌子的感觉,就是完全错误的答案,算法给“桌子”的概率是零。 基于很多类似这样的题目,让机器做题,再纠正对错,就可以训练出算法。 所以,ChatGPT是文字编码和概率组合的游戏,不是准确的事实信息。 搜索引擎最大的难度是找到最相关的准确信息。现在ChatGPT还当不了搜索引擎。将来它会是搜索引擎的好帮手,可以把搜索引擎的准确结果,组合得更易读。 想象一个“搜索引擎+ChatGPT”的场景:基于搜索引擎的准确信息,ChatGPT组合出一篇结构严谨、文字优美的文章。不用你把每个搜索页面打开、拷贝、组织、粘贴了。 2、当专家用 我曾经试过问ChatGPT:如果中国经济想在2023年重新回到较高的增长速度,需要解决什么问题,你有什么建议? 它回答:对于中国经济重新回到较高的增长速度,我有以下建议:1. 重点加强消费需求;2. 加强改革和创新;3. 完善金融体系;4. 加强社会投资;5. 健全科技体系。 这些回答看起来头头是道,确实和专家说的一样,并且还有新颖的地方。这是因为,当问这个问题的时候,模型训练过的大部分文本中,涉及经济增速的那些话,都是专业人士说的。在专业的语境里,出来的语言就是专家的语言,不会是老百姓的回答:增速高低管我啥事,有人给我发工资就行。 所以,不能信ChatGPT说的话,不能把它当专家。但是这些话可以给你启发,你自己可以想这五条建议对不对。 3、想一次得到想要的结果 ChatGPT这个名字,Chat部分,会给人一些误导。 一般来说,我们和人交流,不会重复问对方同一个问题;正常人不会每次对同一个问题,给出不一样的答案。人的思想是一致的,说出来的话是一致的。一言九鼎,人不能瞎说。 ChatGPT不一样,不能把它当成人。如果问了一个问题,觉得它回答得不好,你可以重复问同样的问题,直到得到满意的答案。ChatGPT算法的随机性,让它每次给出的答案都不一样,会有完全相反的观点。 ChatGPT模型有个参数,叫temperature。如果temperature是0,它不说不靠谱的话,在是与否、答案唯一的问题上,它不胡说。不知道的,它说不知道。如果temperature大于零,它说的是有一定概率相关的话,每次说的不一样。 我把temperature参数叫做胡说参数。胡说参数值越高,越天马行空,直到语言都对,但张冠李戴、事实完全错误。就像生活中偶尔碰到的正儿八经的胡说八道的人一样。 我看到有的朋友试用ChatGPT,问了开放性问题,看一眼回答后,觉得答案没意思,就认为ChatGPT没意思,不再用了。这样体会不到ChatGPT的妙处。要得到有趣的结果,要不停地问它,就会有惊喜。 再比如,同样的问题,可以设定文字的语气。比如,我让ChatGPT礼貌地提醒别人请戴口罩,它的回答是: “请您注意戴口罩,以保护您和他人的健康。” 如果让它言辞激烈地提醒别人戴口罩,结果是这样的: “不戴口罩,你就是在自寻死路!” 完全不一样。 这是ChatGPT强大的地方,会产生非常有用的应用场景。 02...
AI时代:未来职业的变迁与新机遇
AI与数学

AI时代:未来职业的变迁与新机遇

这篇文章主要讨论了近期网络热点——微软的ChatGPT应用,以及它对未来就业市场的影响。ChatGPT的表现出了超强的智能对话能力,有可能引发一场新的职业变革。然而,这并非意味着机器人将完全取代人类,而是人类将向更高级别的职位发展,例如AI算法和数据处理等领域。此外,文章还提到了未来可能出现的新的行业和职业,如AI对话应用行业的出现,以及需要计算机、数学等专业人才的垂直领域AI培训。总的来说,AI的广泛应用预示着新的职业机会和挑战,教育结构和人才流动也将会发生改变。