ChatGPT爆火背后,再看合成数据与人工智能的未来
ChatGPT与化学

ChatGPT爆火背后,再看合成数据与人工智能的未来

曹建峰腾讯研究院高级研究员陈楚仪腾讯研究院高级研究员导语:随着ChatGPT持续火爆,背后的大型语言模型(LLM)和生成式AI技术(Generative AI)日益备受关注。AI领域的新一轮竞赛已然开始,微软、谷歌等已在搜索引擎领域展开角逐,将ChatGPT能力融入搜索服务。AIGC浪潮下,除了ChatGPT等面向终端用户的应用形态,生成式AI和AIGC技术更广阔的应用空间将是产业互联网领域,基于生成式AI和AIGC技术的合成数据,将成为人工智能技术在各行各业应用普及和能力提升的核心要素,支撑人工智能未来发展。而且,有研究预测,到2026年ChatGPT等大型语言模型的训练就将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,未来也需要借助合成数据解决ChatGPT等AIGC模型的潜在数据瓶颈,推动进一步发展。在过去的2022年,AIGC(AI-Generated Contents,人工智能生成内容)无疑是最引人瞩目的科技关键词,从引爆AI作画领域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,人工智能正加速实现从感知、理解世界到生成、创造世界的跃迁。以AIGC这一加速扩张的新疆域为标志,AI领域正在迎来下一个时代。多模态AI模型有望成为继移动互联网之后新的技术平台。而且随着AIGC模型的通用化水平和工业化能力的持续提升,其有望带来一场自动化内容生产与交互变革,引起社会的成本结构的重大改变,进而在各行各业引发巨震。经过了2022年的预热,2023年AIGC领域将迎来更大发展,AIGC将更趋主流,AIGC内容的类型和质量将不断提升,将有更多的企业主动拥抱AIGC,AIGC领域将诞生全新的职业机会(如提示词工程师)。当然,政府对AIGC的监管也将有所加强。[1] 在数据领域,我国出台的《关于构建数据基础制度更好发挥数据要素作用的意见》提出,顺应经济社会数字化转型发展趋势,推动数据要素供给调整优化,提高数据要素供给数量和质量。在强化数据要素优质供给方面,基于AIGC技术的合成数据将能发挥巨大价值,将以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。 因此,产业政策需要着力支持、促进AIGC在产业互联网领域的深入应用,培育、打造合成数据、AIGC等未来产业,持续壮大我国发展人工智能、数字经济、产业互联网等新技术新业态新应用的数据优势。 AIGC技术推动合成数据(synthetic data) 领域迎来重大进展 随着AIGC技术持续创新发展,基于AIGC算法模型创建、生成合成数据(synthetic data)迎来重大进展,有望解决AI发展应用过程中的数据限制,进一步推动AI技术更广泛的应用。因此,业界非常看好合成数据的发展前景及其对人工智能未来发展的巨大价值。Forrester、埃森哲(Accenture)[2]、Gartner、CB Insights[3]等研究咨询公司都将合成数据列为人工智能未来发展的核心要素,认为合成数据对于人工智能的未来而言是“必选项”和“必需品”。例如,Forrester将合成数据和强化学习、Transformer网络、联邦学习、因果推理视为实现人工智能2.0的五项关键技术进展,可以解决人工智能1.0所面临的一些限制和挑战,诸如数据、准确性、速度、安全性、可扩展性等。[4]Gartner预测称,到2030年合成数据将彻底取代真实数据,成为AI模型所使用的数据的主要来源。[5]MIT科技评论将AI合成数据列为2022年十大突破性技术之一,称其有望解决AI领域的数据鸿沟问题。[6]数据是人工智能的燃料和驱动力,合成数据将极大拓展人工智能发展应用的数据基础,可以认为,合成数据关乎人工智能的未来。 在概念上,合成数据是计算机模拟(computer simulation)技术或算法创建、生成的自标注信息,可以在数学上或统计学上反映真实世界数据的属性,因此可以作为真实世界数据的替代品,来训练、测试、验证AI模型。简而言之,合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。[7]合成数据拥有很长的历史,在其发展过程中技术不断创新。 例如,游戏引擎、3D图形等模拟技术(simulation technology)可以创建高保真的仿真物体和仿真环境,而结合了AI技术的3D-AI技术则可以极大提升自动化生产3D内容的效率和保真度(fidelity)。得益于生成对抗网络(GAN)、变分自编码器(VAE)、Transformer模型、扩散模型(Diffusion Model)、神经辐射场模型(NeRF)等不断涌现的AI算法,不仅合成数据的种类得到了扩展,而且其质量也不断得到提升。 就目前而言,合成数据大致可分为三类:表格数据/结构化数据,图像、视频、语音等媒体数据,以及文本数据。[8]这几类合成数据在多个领域都有应用。AIGC技术的持续创新,让合成数据迎来新的发展契机,开始迸发出更大的产业发展和商业应用活力。目前主要呈现以下四个方面的发展趋势。‍‍ 合成数据为AI模型训练开发提供 强大助推器,推动实现AI2.0 人工智能的发展应用离不开数据,但真实世界数据面临着难以获取、质量差、标准不统一等诸多问题。为此,计算机模拟技术或算法生成的合成数据,作为真实数据数据的廉价替代品,日益被用于创造精准的AI模型。 合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分。2019年的一篇论文《合成数据用于深度学习》(synthetic data for deep learning)认为,合成数据是现代深度学习领域冉冉升起的最具前景的通用技术之一,尤其对于依赖于图像、视频等非结构化数据的计算机视觉技术而言;并认为合成数据对于人工智能的未来发展至关重要。[9]而且,研究表明在AI模型的训练开发上,合成数据相比基于真实物体、事件或人物的数据,可以发挥同样好甚至更好的效果。[10] 总之,合成数据技术可以实现更廉价、更高效地批量生产制造AI模型训练开发所需的海量数据(诸如训练数据、测试数据、验证数据等等),作为对真实数据的替代或补充,将推动人工智能迈向2.0阶段,从本质上扩展AI的应用可能性。 可以说,目前人工智能仍处在1.0阶段(AI1.0),数据是最大掣肘,业界利用真实世界数据训练AI模型面临多方面问题:数据采集、标注费时费力、成本高企;数据质量较难保障;数据多样化不足,难以覆盖长尾、边缘案例,或者特定数据在现实世界中难以采集、不方便获取;数据获取与使用、分享等面临隐私保护挑战和法规限制,等等。这些数据方面的限制在很大程度上阻碍了人工智能更广泛的应用和部署。 合成数据有望解决这些问题,推动人工智能迈向2.0阶段(AI2.0),可以在更大程度上拓展人工智能的应用。在AI2.0阶段,人们不仅可以利用合成数据更高效地训练AI模型,而且可以让AI在合成数据构建的虚拟仿真世界中自我学习、进化,这将极大扩展AI的应用可能性。具体而言,对于人工智能而言,合成数据可以发挥诸多价值: (1)实现数据增强和数据模拟,解决数据匮乏、数据质量等问题,包括通过合成数据来改善基准测试数据(benchmark data)的质量等; (2)避免数据隐私/安全/保密问题,利用合成数据训练AI模型可以避免用户隐私问题,这对于金融、医疗等领域而言尤其具有意义; (3)确保数据多样性,更多反映真实世界,提升AI的公平性,以及纠正历史数据中的偏见,消除算法歧视; (4)应对长尾、边缘案例,提高AI的准确性、可靠性,因为通过合成数据可以自动创建、生成现实世界中难以或者无法采集的数据场景,更好确保AI模型的准确性; (5)提升AI模型训练速度和效果。总之,利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练AI模型,进而极大扩展AI的应用可能性,将人工智能推向新的发展阶段。 合成数据助力破解AI“深水 区”的数据难题,持续拓 展产业互联网应用空间 合成数据早期主要应用于计算机视觉领域,因为计算机视觉被广泛应用于自动驾驶汽车、机器人、安防、制造业等领域,在这些应用场景中打造AI模型都需要大量的被标注的图像、视频数据。但获取现实数据往往并非易事。 以自动驾驶汽车为例,由于实际道路交通场景千变万化,让自动驾驶汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的,必须借助于合成数据才能更好地训练、开发自动驾驶系统。为此,自动驾驶企业开发了复杂的仿真引擎来“虚拟地合成”自动驾驶系统训练所需的海量数据,并高效地应对驾驶场景中的“长尾”问题和“边缘案例”。 例如,腾讯自动驾驶实验室开发的自动驾驶仿真系统TAD Sim可以自动生成无需标注的各种交通场景数据,助力自动驾驶系统开发。在安全的、合成的仿真环境中,计算机可以模拟任何人类想象得到的驾驶场景,诸如调节天气状况、添加或移除行人、改变其他车辆的位置等等。可以说,合成数据和仿真技术是自动驾驶的核心支撑技术。最早涌现的一批合成数据创业公司就瞄准的是自动驾驶汽车市场,帮助自动驾驶企业解决其在自动驾驶系统开发过程中所面临的数据和测试难题。 目前,合成数据正迅速向金融、医疗、零售、工业等诸多产业领域拓展应用。合成数据在金融服务领域的探索仍处于早期且不断拓展,并且受到咨询公司、金融巨头和监管机构的关注。 合成数据背后的生成式AI被Gartner评为2022年银行和投资服务领域越来越受欢迎的三项技术之一。[11]生成性AI受欢迎的原因是能够通过合成数据以成本更低、易规模化、隐私保护合规的方式提供接近真实世界的数据。而在银行和投资服务领域,生成对抗网络(GAN)和自然语言生成(NLG)的应用可以在大多数欺诈检测、交易预测、合成数据生成和风险因素建模的场景中找到。例如,美国运通(America Express)利用GAN创建合成数据来训练、优化其进行欺诈检测的AI模型。谷歌利用AI生成的医疗记录来帮助预测保险诈骗(insurance fraud)。 摩根大通(J.P.Morgan)2021年9月在其官网发布相关研究,提出通过生成合成数据集加快金融服务领域的AI研究和模型开发,来改善服务体验、解决欺诈检测和反洗钱等重要问题。[12]国外金融服务业所产生的大量真实数据因为法律限制(如欧盟的GDPR和美国的CCPA)和隐私保护要求无法使用或使用存在诸多限制。合成数据创造的新样本具有真实数据的性质,增加真实数据中的罕见样本,以便更有效地训练机器学习算法。一个关键的领域是欺诈检测模型训练。由于欺诈性案件的数量与非欺诈性案件相比较十分稀少,研究人员很难有效地从可用数据中训练模型,导致无法针对欺诈性行为进行建模。然而,合成数据可以生成比实际数据中欺诈案例比例更高的合成数据样本,用于帮助改进模型训练。 图:金融数据合成过程(来源:摩根大通官网) 英国金融行为监管局(Financial Conduct...
ChatGPT App重大进化!能看能听还会说,多模态模型细节同时公布
ChatGPT与化学

ChatGPT App重大进化!能看能听还会说,多模态模型细节同时公布

更新将在接下来的两周内向ChatGPT Plus订阅用户和企业版用户推出,iOS和安卓都支持。 OpenAI连发两则重磅消息,首先ChatGPT可以看、听、说了。 打开凤凰新闻,查看更多高清图片 新版ChatGPT开启一种更直观的交互方式,可以向AI展示正在谈论的内容。 比如拍一张照片,询问如何调整自行车座椅高度。 官方还给出另一个实用场景思路:打开冰箱拍一张照片,询问AI晚餐可以吃什么,并生成完整菜谱。 更新将在接下来的两周内向ChatGPT Plus订阅用户和企业版用户推出,iOS和安卓都支持。 与此同时,多模态版GPT-4V模型更多细节也一并放出。 其中最令人惊讶的是,多模态版早在2022年3月就训练完了…… 看到这里,有网友灵魂发问:有多少创业公司在刚刚5分钟之内死掉了? 看听说皆备,全新交互方式 更新后的ChatGPT移动APP里,可以直接拍照上传,并针对照片中的内容提出问题。 比如“如何调整自行车座椅高度”,ChatGPT会给出详细步骤。 如果你完全不熟悉自行车结构也没关系,还可以圈出照片的一部分问ChatGPT“说的是这个吗?”。 就像在现实世界中用手给别人指一个东西一样。 不知道用什么工具,甚至可以把工具箱打开拍给ChatGPT,它不光能指出需要的工具在左边,连标签上的文字也能看懂。 提前得到使用资格的用户也分享了一些测试结果。 可以分析自动化工作流程图。 但是没有认出一张剧照具体出自哪部电影。 语音部分的演示还是上周DALL·E 3演示的联动彩蛋。 让ChatGPT把5岁小朋友幻想中的“超级向日葵刺猬”讲成一个完整的睡前故事。 DALL·E3演示 ChatGPT这次讲的故事文字摘录如下: 过程中更具体的多轮语音交互细节,以及语音试听可参考视频。 01:41 多模态GPT-4V能力大揭秘 结合所有公布的视频演示与GPT-4V System Card中的内容,手快的网友已经总结出GPT-4V的视觉能力大揭秘。 物体检测:GPT-4V可以检测和识别图像中的常见物体,如汽车、动物、家居用品等。其物体识别能力在标准图像数据集上进行了评估。 文本识别:该模型具有光学字符识别 (OCR) 功能,可以检测图像中的打印或手写文本并将其转录为机器可读文本。这在文档、标志、标题等图像中进行了测试。 人脸识别:GPT-4V可以定位并识别图像中的人脸。它具有一定的能力,可以根据面部特征识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。 验证码解决:在解决基于文本和图像的验证码时,GPT-4V显示出了视觉推理能力。这表明该模型具有高级解谜能力。 地理定位:GPT-4V 具有识别风景图像中描绘的城市或地理位置的能力,这证明模型吸收了关于现实世界的知识,但也代表有泄露隐私的风险。 复杂图像:该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它错过了上下文细节。 同时也总结了GPT-4V目前的局限性。...
ChatGPT多模态能力引发热潮,但自家论文揭示GPT-4V仍存缺陷新浪财经2023-09-27 15:39新浪财经2023-09-27 15:39
ChatGPT与化学

ChatGPT多模态能力引发热潮,但自家论文揭示GPT-4V仍存缺陷新浪财经2023-09-27 15:39新浪财经2023-09-27 15:39

来源:火讯财经 文章转载来源:Yangz 撰文:Kyle Wiggers 来源:TechCrunch 图片来源:由无界 AI工具生成 当 OpenAI 首次发布其旗舰文本生成人工智能模型 GPT-4 时,该公司吹捧了该模型的多模态性 — 换句话说,它不仅能理解文本,还能理解图像。OpenAI 表示,GPT-4 可以为相对复杂的图片添加字幕,甚至进行解释,例如从插入 iPhone 的图片中识别出 Lightning Cable 适配器。 但自 GPT-4 于 3 月底发布以来,OpenAI 一直在保留该模型的图像功能,据说是因为担心滥用和隐私问题。直到最近,这些担忧的确切性质仍然是个谜。而在本周初,OpenAI 发表了一篇技术论文,详细介绍了其为减少 GPT-4 图像分析工具中问题较多的方面所做的工作。 迄今为止,有视觉功能的 GPT-4(OpenAI 内部简称为“GPT-4V”)仅被 Be My Eyes(一款帮助视弱群体和盲人浏览周围环境的应用程序)的数千名用户定期使用。然而,据该论文称,在过去几个月里,OpenAI 也开始与“红队人员”合作,探究该模型是否存在意外行为的迹象。 在论文中,OpenAI 声称它已经采取了保障措施来防止 GPT-4V 被恶意使用,比如破解验证码、识别一个人或估计其年龄或种族,以及根据照片中不存在的信息得出结论。OpenAI 还表示,它已经努力抑制 GPT-4V 中更有害的偏见,尤其是那些与人的外貌、性别或种族有关的偏见。 但与所有人工智能模型一样,保障措施也只能做到这么多。 论文显示,GPT-4V...
小K播早报|ChatGPT可通过必应进行网络搜索 Meta发布Quest 3头显及AI聊天机器人科创板日报2023-09-28 08:21科创板日报2023-09-28 08:21
ChatGPT与化学

小K播早报|ChatGPT可通过必应进行网络搜索 Meta发布Quest 3头显及AI聊天机器人科创板日报2023-09-28 08:21科创板日报2023-09-28 08:21

《科创板日报》9月28日讯 ,今日科创板早报主要内容有:杉杉股份:拟收购LG化学旗下在中国大陆、韩国及越南的SP业务及相关资产;美光科技下一财季每股亏损预测高于预期;瀚川智能董事长提议回购公司股份,回购资金总额为5000万元-1亿元。 《科创板日报》主播小K为您播报。 市场动态 习近平:要进一步激发进口潜力、放宽市场准入、推动多边和双边合作深入发展 增强对外资的吸引力 中共中央政治局9月27日下午就世界贸易组织规则与世界贸易组织改革进行第八次集体学习。中共中央总书记习近平在主持学习时强调,要更加主动对接高标准国际经贸规则,稳步扩大规则、规制、管理、标准等制度型开放,加快打造对外开放新高地,建设更高水平开放型经济新体制,加快构建新发展格局。要积极营造市场化、法治化、国际化一流营商环境,以推动加入《全面与进步跨太平洋伙伴关系协定》和《数字经济伙伴关系协定》为契机,进一步激发进口潜力、放宽市场准入、推动多边和双边合作深入发展,增强对外资的吸引力。要加快建设贸易强国,升级货物贸易,创新服务贸易,发展数字贸易,以数字化绿色化为方向,进一步提升国际分工地位,向全球价值链中高端迈进。同时,要注意维护国家经济安全。 美股热门中概股普涨 法拉第未来跌超44%总市值跌破3000万美元 热门中概股普涨,纳斯达克中国金龙指数涨0.80%。唯品会涨超4%,小鹏汽车涨超2%,拼多多、哔哩哔哩涨超1%,微博、蔚来、理想汽车、腾讯音乐、百度、阿里巴巴、满帮、富途控股小幅上涨。网易、爱奇艺跌超1%,京东小幅下跌。法拉第未来跌超44%,续创新低,总市值跌破3000万美元。 ChatGPT再迎重磅升级:终于能“联网”了 不再局限于旧数据 当地时间周三(9月27日),OpenAI在X(前身为推特)上宣布,其聊天机器人产品ChatGPT可以通过微软的必应搜索引擎进行网络搜索,将不再局限于2021年9月之前的数据。OpenAI称:“现在ChatGPT Plus和Enterprise(企业版) 用户可以使用浏览功能,将很快扩展到所有用户。要启用,请在GPT-4下的选择器中选择‘使用必应浏览’(Browse with Bing)。” Meta正式推出Quest 3头显 并发布AI聊天机器人 当地时间周三(9月27日),Meta在其Connect开发者大会上正式发布了备受期待的新一代VR头显Quest 3。Meta在今年6月初就预告了这款设备。Quest 3的起售价为499美元,比上一代产品贵了200美元,将于周三开始预订,10月10日发货。据介绍,Quest 3配备了高通骁龙 XR2 Gen 2芯片,该芯片基于Arm架构,在功耗和能耗方面更接近移动处理器,而不是PC处理器。Quest 3的处理能力是Quest 2的两倍,改进了图形渲染,操作更流畅,加载应用程序时速度更快。 Meta首席执行官马克•扎克伯格还介绍了面向消费者的生成式人工智能(AI)产品,包括一款既能生成文本回复,又生成逼真图像的聊天机器人,名为Meta AI。Meta AI基于强大的Llama 2大型语言模型定制,Llama 2于今年7月发布,用于公共商业用途。扎克伯格称,这款聊天机器人将通过与微软必应搜索引擎的合作,获得实时信息。 美光科技下一财季每股亏损预测高于预期 美光科技第四财季经调整营收40.1亿美元,分析师预期39.3亿美元;预计第一季度经调整营收42亿美元至46亿美元,分析师预期42.1亿美元;第四财季营业现金流2.49亿美元,分析师预期11.7亿美元;第四财季调整后每股亏损1.07美元,分析师预期每股亏损1.18美元;第四财季调整后运营亏损12.1亿美元,分析师预期亏损12.5亿美元;预计第一财季每股亏损1.00-1.14美元,分析师预期亏损0.96美元;预计第一财季毛利润率为-2%至-6%,分析师预期为+0.66%。 公司面面观 杉杉股份:拟收购LG化学旗下在中国大陆、韩国及越南的SP业务及相关资产 杉杉股份公告,下属子公司杉金苏州及其全资子公司杉金广州拟以人民币14.07亿元的初始转让价格收购LG化学旗下在中国大陆、韩国及越南的SP业务及相关资产(“SP业务”指(1)用于OLED显示屏的特殊偏光片产品;及(2)车用LCD业务中的及可在苹果公司和/或其关联方的产品上或者供之使用的LCD偏光片产品)。 爱柯迪:新能源汽车零部件铝合金产品在手订单金额超过250亿元 爱柯迪公告,9月初,依据公司已获得的项目定点函或与客户已签订项目开发协议等资料,公司新能源汽车零部件铝合金产品在手订单金额超过250亿元,该等获取订单主要集中在未来4~7年内实现销售收入。 双环传动:前三季度净利润预增41.29%-46.18% 双环传动公布2023年前三季度业绩预告,2023年前三季度归属于上市公司股东的净利润盈利57,860万元–59,860万元,比上年同期增长41.29%-46.18%;扣除非经常性损益后的净利润盈利54,060万元–56,060万元,比上年同期增长42.73%-48.01%;基本每股收益盈利0.68元/股–0.70元/股。 上声电子:预计前三季度扣非归母净利润同比增96.97% 上声电子公告,预计2023年第三季度公司营业收入6亿元,较二季度环比增长17.42%,同比增长25%;实现扣非归母净利润约3500万元,同比增长60.09%。2023年前三季度,公司实现营业收入约15.6亿元,同比增长约30.22%,实现扣非归母净利润约1.06亿元,较上年同期增长96.97%。 百克生物:预计第三季度归母净利润同比增长35.99%到72.88%...
ChatGPT,安全生产领域怎么用?中国应急管理报2023-09-23 04:07
ChatGPT与化学

ChatGPT,安全生产领域怎么用?中国应急管理报2023-09-23 04:07

摘要:我国安全生产形势依然严峻复杂,从业人员和公众的安全素养提升是一个长期的过程,如何利用最新科技手段和方法来快速有效地增强风险辨识和防控能力,提高安全管控效能已成为迫切的现实需求。以Chat Generative Pre-trained Transformer(以下简称ChatGPT)为代表的人工智能(Artificial Intelligence,以下简称AI)技术的快速发展和在相关行业领域的尝试应用为安全科技的进一步创新发展和应用提供了突破点。本文分析了以ChatGPT为代表的AI技术的发展现状,列举了它可能的应用场景和优势,并利用现有的类ChatGPT工具,对部分场景进行了测试应用。同时,对类ChatGPT工具的局限性和可能风险进行了剖析。希望能以此助力在安全生产领域更加理性地应用AI新技术和工具,更好拥抱数智化新未来。 一、安全生产形势复杂严峻,科技创新及其成果应用是破解之道 目前,全国安全生产整体水平还不够高,安全发展基础依然薄弱,企业本质安全水平较低且风险防控能力还不强。安全生产新旧风险交织特征明显,一方面,危险化学品、矿山等高危行业产业布局和结构调整优化还不到位,小、散、乱的问题尚未得到根本解决;另一方面,工业化、城镇化持续发展,各类生产要素流动加快、安全风险更加集聚,事故的隐蔽性、突发性和耦合性明显增加。目前我国安全生产形势依然严峻复杂,积极探索并充分利用先进科技成果是防范化解重大安全风险的重要思路和对策。 二、AI技术快速发展,为安全管控能力加强提供重要机遇 这几年,AI技术的发展和应用正迎来新的突破,尤其是在AI生成内容(AI Generated Content,AIGC)方面。以ChatGPT为代表的AI技术正加速实现从感知理解到生成创造的跃迁,这将会对各行业领域产生重大影响。 以ChatGPT为例,它是由美国AI研究实验室OpenAI于2022年11月发布的一款基于生成式预训练模型GPT-3.5的自然语言处理工具。ChatGPT可根据聊天的上下文进行互动来完成编写文案、代码、邮件、视频脚本等各项任务。今年3月发布的大型多模态模型GPT-4,使得ChatGPT可接收图像和文本输入,并让ChatGPT在图片阅读方面表现出惊人的判断能力。目前,虽然在许多现实场景中ChatGPT还比不上人类的能力,但它在很多专业和学术基准测试中已表现出与人类相当的水平。 国内外各科技巨头纷纷布局,加入这场全球新一轮AIGC技术竞赛,正在推出和测试各自类ChatGPT的产品。例如,国外的有微软的Bing Chat、谷歌的Bard和Meta的LLaMa等,国内的有百度的文心一言、阿里云的通义千问、奇虎360的360智脑、商汤科技的日日新等。这些类ChatGPT工具的功能主要包括文案创作、逻辑推理、自动编程等。 ChatGPT于2022年推出后两个月便成为拥有1亿活跃用户的消费应用程序。此外,基于AI的绘画工具如Midjourney、Stable diffusion,辅助生成PPT工具如Tome、数字人生成工具如D-ID等产品也大量涌现,受到热捧。这些具有快速响应能力的AI技术产品表现出了在多场景、多行业、多领域的落地潜能与应用前景。其应用不仅将加速丰富人们的生活,也将极大地提高各行业领域的工作效能。当然,这也为安全生产中安全管控能力的加强提供了重要机遇。 三、类ChatGPT人工智能技术在安全生产方面的应用场景多样,未来可期 类ChatGPT人工智能技术和工具可在安全生产的以下五方面进行探索和应用。 (一)安全智能助手 类ChatGPT工具很适合作为日常工作的安全辅助工具,它可通过强化学习方式进行自我纠错,在试用过程中,可明显感受到与它的对话体验要比当前Siri等智能助手好很多。类ChatGPT工具在代码纠错、文案创作等方面表现出的生成性能与需求响应能力,体现出了其发展为各行业智能助手的潜力。类ChatGPT工具经过训练和微调可实现向安全生产方向的迭代,从而可提供更智能的安全助手服务。 使用某一款正在测试中的类ChatGPT工具,通过文字或语音方式提问:“请从5个方面描述,高层建筑逃生要点有哪些?”系统快速给出的回复如图1所示。 图1 针对提问系统给出的回复(方来华 供图) (二)安全教育培训 因为大语言模型善于学习语言风格,所以类ChatGPT工具可根据用户拟出的主要事实来辅助起草和润色工作方案、作业计划等文件。在安全培训领域,安全管理人员可根据不同的岗位、操作流程、工作条件,利用类ChatGPT工具协助制定安全培训计划。此外,快速的自然语言处理能力使其能够以对话的方式与员工进行互动,相比于传统安全培训方式,互动式的安全培训更具吸引力和有效性。互动式安全培训的优势主要体现在两方面:其一,类ChatGPT工具可方便快捷地为员工组织交互式培训材料,这可帮助员工有针对性地了解安全协议、指南等;其二,员工针对提供的培训材料提出问题可即时获得答复,这使得他们更易理解和记忆相关的安全培训内容并增强安全意识。 众多国外文献阅读、消化和理解,对很多人来说都是一个较大挑战,这时可利用ChatPDF等工具辅助阅读。可以将国外相关资料和文献中的内容直接输入ChatPDF工具,利用提问形式,自动提炼生成重点内容并翻译呈现给用户,从而使用户可快速理解和掌握核心知识,这样可以极大提高学习工作效能。 接下来,以使用一款AI工具为例,发出“你作为安全管理人员,做一个触电事故安全教育培训方案”的指令,该AI工具快速给出回复如图2所示。该AI工具提供的内容可复制和转发使用,此外,还可要求其继续生成更详细的内容。 图2 根据要求系统给出的方案(方来华 供图) (三)风险监测与预警 类ChatGPT工具可分析复杂的工艺过程并监测环境数据,如温度、压力、流量、浓度、湿度、噪音和振动等,分析这些海量的工业数据可预测工业生产过程中的潜在危害。例如监测工业熔炉的温度、压力等数据并结合历史信息进行分析,可实现对设备的预测性维护,这样可提高设备的可靠性和安全性。此外,对上述工业数据进行分析并结合事故案例数据还可研判发生事故的可能性。AI工具除了可以提供风险分析结果和建议来辅助优化工作流程或设备维护计划外,还可以及时纠正员工生产过程中的危险行为,如AI驱动的摄像头会检测员工是否佩戴必需的个人防护装备,然后根据员工的佩戴情况会自动生成相应的语音提醒。 (四)事故(事件)分析 类ChatGPT集成到事故(事件)报告系统,可指导用户完成报告过程,确保收集和提交事故(事件)所有必要的信息,这样员工可更轻松、更高效地报告安全问题或事故(事件)。AI工具不仅能帮助用户报告事故(事件),还能分析事故(事件)发生的根源并提出改进建议。一方面,AI工具会识别可能导致事故(事件)发生的因素,如人为因素、环境因素或设备因素,然后会针对不同因素提出建议措施以防重蹈覆辙。另一方面,类ChatGPT工具通过对话与员工互动,更易获取来自员工对事故(事件)的反馈并根据反馈提出改进建议。此外,这些工具还可促进员工和管理层之间进行交流,从而更好地了解事件并提供更有效的解决方案。 使用ChatPDF相当于直接与事故调查报告、手册、书籍或研究论文交谈。ChatPDF可以用通俗易懂的中文对晦涩难懂的外文资料进行提炼总结,分析并解答相关问题。如想对美国2022年1月15日发生火车事故情况进行了解,只需要打开聊天窗口,上传“Employee Fatality Amtrak Train 16.3-15”PDF文件,然后就可开始与文件进行交谈。利用ChatPDF可快速从国外事故调查报告PDF文件中提取需要的信息,比如事故的主要原因、直接原因以及事故教训启示等。与ChatPDF具体的交流过程如图3所示。 图3 与ChatPDF具体交流过程(方来华 供图) (五)公共安全教育 类ChatGPT工具有着强大的知识汇聚能力,适合用作公共安全教育的工具,为公众提供安全提示、事故规避策略和安全知识,这样有助于增强公众的安全意识。进一步讲,利用类ChatGPT工具将复杂的安全信息以简单易懂的方式进行交流,能够增加公众对安全信息的接受度。当宣传安全信息需绘图时,用户无需掌握任何绘画技能,仅通过自然语言在AI绘图工具的对话框中作出要求再发送,即可在几秒钟内创建生成用户想象内容和场景的高质量图像。而且用户提示词描述越详细准确,图像的效果就越逼真。 四、类ChatGPT人工智能技术应用尚存局限,需关注可能面临风险...
求医3年无果,ChatGPT诊断出4岁男孩病因,大模型开始入局医疗
ChatGPT与化学

求医3年无果,ChatGPT诊断出4岁男孩病因,大模型开始入局医疗

文|周愚 编辑|邓咏仪 尚恩 ChatGPT 又立大功了! 据外媒报道,一位母亲考特尼病急乱投医,向 ChatGPT 分享了儿子亚历克斯症状的有关信息后,意外之喜出现了——ChatGPT 精准地发现孩子可能罹患脊髓栓系综合征。 而在这之前,考特尼已经带着亚历克斯四处求医三年,陆续问诊了 17 名医生,他们分别来自牙科、儿科、耳鼻喉、成人内科、肌肉骨骼等各个科室,却始终查不出孩子的病因。 亚历克斯。图源:today.com 事情要从 2020 年新冠疫情封锁期间说起,当时 4 岁的亚历克斯收到了母亲送的跳跳屋玩具,谁也没有想到这会开启他三年饱受病痛折磨的日子。 起初,亚历克斯只是不停地磨牙,而后考特尼又逐渐发现孩子的发育速度明显减缓,甚至出现左右脚不平衡的情况—— ” 他会先用右脚向前走,然后拖着左脚往前。” 与此同时,亚历克斯还开始遭受愈发严重的头痛,这让亚历克斯每天不得不以服用布洛芬为生。 ” 我们看了这么多的医生,一度长时间待在急诊室里。我一直在努力。我几乎(在电脑上)浏览了一整夜,经历了这所有事情。” 当 ChatGPT 给出诊断意见后,这位母亲接受媒体采访时的感动、喜悦溢于言表。 原来,在许多脊柱裂患儿中,孩子的背部都有一个可见的开口。然而,亚历克斯所患的却是隐匿性脊柱裂,封闭而难以发现。这也是为什么之前的 17 位医生,无一人发现。 报道一出,网友们便开始纷纷热议,大部分网友喜闻乐见大模型在医疗领域的这种应用:” 无法负担医疗费用和在贫困国家的人们将会大大受益于此。” 图源:X(推特) 更有网友补充道,意义不止于此——这对罕见病、疑难杂症很有帮助。 当然,一些网友谨慎的质疑也不无道理:” 如果没有人类专家的交叉确认,我们要如何确定 ChatGPT 的诊断是正确的?” 不过,用大模型看病早已不是什么个例。今年以来,大语言模型的概念持续走高,国内外科技巨头们也纷纷将大模型运用于 “AI+ 医疗 ” 之中。 ” 百模大战 ”...
国内首个高分子材料基因平台诞生,被称“高分子版的ChatGPT”文汇报2023-03-10 11:33
ChatGPT与化学

国内首个高分子材料基因平台诞生,被称“高分子版的ChatGPT”文汇报2023-03-10 11:33

满足高强度、耐高温、轻质化兼具的先进树脂复合新材料是制约先进装备发展的关键瓶颈。当下,这样的难题可望得到解决。记者从华东理工大学获悉,由林嘉平教授团队开发的国内首个高分子材料基因组研发平台(AI plus高分子软件平台)日前在沪问世。 该软件被称为“高分子版的ChatGPT”,包含国内首个树脂结构性能数据库和基团间化学反应数据库。使用者只需输入树脂结构,即可快速获得其力学、热学和介电等性能,还可以通过该软件进行性能预测和高通量筛选,以更快效率、更低成本研制出高性能聚合物及其复合材料。 “新材料的研发从科学家的经验试错时代跨入智能制造时代。”林嘉平介绍,过去一个新材料从设计、实验再到产品化往往需要2-3年甚至更长时间,如今,依托这个“高分子虚拟实验室”,研发人员只需通过2-3次的迭代即可找到结构设计和配方优化的最优解,实验时间大大缩减。团队将和产业界携手,推动AI plus高分子研究范式向产业全链条发展。 强大数据库和预测系统同行领先 AI plus高分子软件平台有何亮点?林嘉平介绍,作为AI和数字化技术同高分子材料交叉领域的重要成果,强大的数据库是平台重要的支撑,可谓材料基因工程的基石。团队所建立的国内首个树脂结构性能数据库和基团间化学反应数据库,包含3万4千多种聚合物的将近15万条性能数据、58516种基元反应模板的近140万条化学反应数据。 值得一提的是,这些数据主要依靠过去三年尤其是疫情期间团队数十名研究生和本科生逐条规范整理、录入、存储。基于数据库,团队创建了面向高分子十余种性能的机器学习预测模型,并构建了高分子材料基因组研发平台,具备数据检索、性能预测、配方优化等多个功能。 记者在团队的现场演示上看到,用户在使用AI plus高分子软件平台进行高分子材料性能预测功能时,只需先点击“绘制结构”,分别将所绘制的环氧树脂和固化剂转化的字符串输入到对应的输入框中,再点击“开始预测”,短短几秒后页面就会返回后台计算出来的环氧树脂性能预测数据。 那么,这款软件和国外同行比较水平如何?团队成员之一、华东理工大学特聘研究员高梁举例,目前美国及日本均有类似软件。但在数据库的丰富程度、预测精确度、功能多样性等方面,AI plus高分子软件平台更胜一筹。“我们的目标,是努力抓住当前数字化和人工智能对新材料产业的变革契机,以更快效率、更低成本研制出高性能高分子及其复合材料,实现高分子材料的原始创新和智能制造。”高梁说。 新材料研发从经验“试错”时代跨入“智能制造”时代 AI plus高分子软件平台的开发可谓十年磨一剑。据悉,从2011年开始,林嘉平团队就抓住材料研究最前沿领域——材料基因工程着手相关工作。 在基因组合筛选和AI工具的通力合作下,团队研制了系列先进复合材料基体树脂。如固化温度小于300 ℃、5%热分解温度大于650 ℃、玻璃化转变温度大于600 ℃的新型耐高温、易加工硅萘炔和硅芴炔树脂。再如,耐高温、高韧性的新型聚硅炔酰亚胺树脂,其加工性能、耐热和界面性能优于聚酰亚胺,力学性能与聚酰亚胺相当。相关新型树脂已由多家航空航天院所开展复合材料及构件性能评价。 “AI plus高分子软件平台就像一个高分子虚拟实验室,平台的虚拟设计、高通量预测的方法将大大提高研发效率。”林嘉平介绍,目前该平台已在上海华谊集团树脂厂、上海航天八院、晋飞碳纤科技和金山石化院等十余家企业试用,将择机向社会公开使用。 作者:吴金娇 编辑:储舒婷 责任编辑:樊丽萍 图片:华东理工大学 *文汇独家稿件,转载请注明出处。 举报/反馈
聚焦2023上海车展|ChatGPT“上车”,引发“第三空间”化学反应?文汇报2023-04-20 06:17
ChatGPT与化学

聚焦2023上海车展|ChatGPT“上车”,引发“第三空间”化学反应?文汇报2023-04-20 06:17

▲在本届车展上,商汤绝影的智能展示舱将数字人与大模型结合起来。 本报记者 张伊辰摄 新一代科技革命呼啸而至,ChatGPT等技术与正在电动化、共享化、网联化、智能化的汽车相遇了。在第20届上海国际汽车工业展览会上,ChatGPT成了热词:4月上旬才相继问世的一些类ChatGPT产品,几天后就纷纷“上车”,探索汽车这一工作、居住之外的“第三空间”里的奇妙化学反应。 “新能源汽车将是大模型最大的交互应用场景。”斑马智行CEO张春晖对ChatGPT与汽车的结合作出了大胆判断。他说的是智能汽车的新飞跃:从钻研汽车“心脏”到探索汽车“大脑”,从专注汽车本身到汽车的“万物互联”,ChatGPT奇点的到来为这一切打开了想象空间。 现场直击:打开“第三空间”百宝箱 上海车展与ChatGPT的交集,主要来自于造车新势力。相对于传统造车企业,这些新势力的“新四化”渗透率更高,背后往往有科技企业的技术加持。 在5.1号馆,商汤绝影的展位在角落里,但丝毫不影响它成为关注的焦点——4月10日商汤刚刚发布的“日日新”大模型体系,已成功嵌入座舱。考虑到车展的策划执行还要提前一个月,可以推断,“日日新”在研发过程中已同步考虑到车载应用落地。 走入绝影未来展示舱内体验,最大的感受是数字人与大模型的结合。记者首先提出,请为我规划一个“五一”小长假上海5天游的行程。在停顿了约30秒之后,屏幕上给出了一份近300字的超长攻略。记者再提要求:请总结一下。大模型随后给出了50字左右的简短行程。随后记者再度“挑刺”:我不想去上海野生动物园。几秒之后,多个可替代景点的方案呈现在屏幕上。从体验看,基于千亿参数的大模型,让车舱内的多轮对话变成现实,仿佛打开了“第三空间”的百宝箱,并且可以执行。据悉,商汤绝影已与30家车企合作,智能驾驶和智能座舱产品累计前装定点数量超3100万台。 来到百度Apollo展台,一辆搭载文心大模型的现代帕里斯帝体验车已就位。“打开车窗、开启空调”,记者下达指令后,车内“可见即可说”。乘客人多怎么办?记者体验发现,车辆具备8路连续对话功能,即使是多位乘客一起和车辆交流,也不会“串台”。从百度发布的文心大模型的落地应用演示视频来看,汽车还能帮你拍照并发朋友圈、自检电池性能、解答相关问题等。 此外,百度和华为还在提前布局“无图商用”的升维打法。华为在车展期间发布了问界M5系列华为高阶智能驾驶版,到今年二季度,最新的智驾系统ADS 2.0将在15城实现不依赖高精地图的智能驾驶落地。百度则推出了“轻HD地图”,通过加强算法来减少车辆对于道路要素的依赖,同时可实现快速更新。 让汽车“长脑子”,重塑操作系统 “ChatGPT正在搅动汽车这个过去有点封闭的产业。”说这句话的,是奇瑞雄狮科技总经理邬学斌。他认为,汽车智能化才刚开始,智能化的底层逻辑是人工智能,人工智能的底层逻辑则是数据、算力和算法,他用“为汽车装上脑子”来形容ChatGPT将带来的深远变化,“今天的汽车,有心脏、四肢、骨骼,就是没有脑子,所以一直没有重大突破”。 “用脑袋改变汽车”的提法,在上海车展上被很多专家所认可。本次车展开幕当天,智己汽车发布了AI4M战略,公司联席CEO刘涛也作了类似比喻,“AI+软硬件”架构,简单来说,就是拥有像人一样的大脑、眼睛、四肢,但它也需要“更像人”的思维逻辑去控制,让智能汽车真正像人一样去思考。 这个“大脑”,用科技行业的专业术语来说,更确切地指向了底层操作系统。中国工程院院士、清华大学智能产业研究院院长张亚勤认为,以“文心一言”为代表的平台化通用式强人工智能,会给整个汽车行业带来极大冲击,“当通用大语言模型走向多模态模型,我们一定要有这样的认知,它不是一个对话机器人,而是我们在智能化时代、人工智能时代新的操作系统”。 阿里云在4月11日发布“通义千问”大模型后,也快步闯荡上海车展。张春晖认为,在智能汽车上,AliOS接入“通义千问”大模型后,“在基础系统层,大模型自动生成代码可以极大提升编程效率;在平台框架层,基于大模型的SOA可以让车企和操作系统企业更快捷地联合共建;在用户交互层,则是用户自定义,大模型负责生成。”总之,将推动汽车操作系统全新的共建理念与发展战略,在技术引领下催生“杀手级”应用出现。 据悉,智己汽车已成为首个采用“通义千问”大模型算法赋能整车的品牌,并与多家国内顶尖大模型算法机构探讨深层次合作,将利用ChatGPT在更多智能场景应用上实现突破。 从汽车本身到“车联万物” 就在几天前,OpenAI首席执行官山姆·奥特曼表示,巨型AI模型发展模式已结束,GPT-4可能是OpenAI“使模型更大并为其提供更多数据”战略中的最后一个重大进展,新的进步不会来自于让模型变得更大。在不少专家的解读中,ChatGPT已转向拼应用的阶段。 而汽车一直是AI落地的重要场景。据IHS Markit数据统计,目前中国市场座舱智能配置的新车渗透率约为48.8%,到2025年预计可超过75%。张春晖认为,新汽车具有交互主体多、交互方式多、交互黏性强、计算零件多、数据规模大、空间属性和社会属性等特征,这决定了新能源汽车一定是大模型最大的交互应用场景之一。 但要实现这种跨越也并非易事。有人就提出质疑:ChatGPT牵涉的算力太“烧脑”,汽车会不会变成一个移动大机房?以智能汽车计算零件数为例,一部手机的传感器只有13个,但当下一辆智能汽车却具有340个传感器和66项控制权,是手机的26倍多。埃森哲大中华区董事总经理陈明就此认为,随着汽车数据种类不断增多,体量愈发庞大,迭代速度持续加快,实现数据变现的挑战也会越发复杂,且成本高昂。 当然,所有的挑战与难题一旦被突破,就能成为“弯道超车”的撒手锏。陈明认为,当下数据的交互和使用,还处于线上线下打通的起点,即将消费者、4S店、主机厂、系统提供商等做整合,以更好数字化转型,而放眼未来,ChatGPT大潮将推动智能网联及自动驾驶往前疾驰,企业要有效整合价值链上各环节的数据,优化效率,提供服务,这将带来一个巨大的想象空间。 如果从“车联万物”角度看,汽车的“大脑”必将成为枢纽般的存在,而本届上海车展上亮相的多轮语言交互、无图商用等应用都只是小荷才露尖尖角。ChatGPT“上车”,看起来还有很长的路要走。 作者:徐晶卉 周渊 编辑:施薇 *文汇独家稿件,转载请注明出处。 举报/反馈
清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT量子位2023-04-20 17:19北京
ChatGPT与化学

清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT量子位2023-04-20 17:19北京

衡宇 萧箫 发自 凹非寺量子位 | 公众号 QbitAI 生物医药研发领域,一个名为BioMedGPT-1.6B的轻量级科研版基础模型刚刚开源。 参数16亿,最大特点是跨模态与知识融合。 训练数据中,包含分子、文献、专利、知识库等多尺度跨模态的生物医药大数据,并融合分子结构、知识图谱和文献文本中的知识,用于增强模型的泛化能力和可解释性。 应用任务上,BioMedGPT-1.6B则展现出了通用能“打”的效果,可以处理药物性质预测、自然语言类、跨模态等多种任务。 打造这个BioMedGPT-1.6B生物医药基础模型的团队,来自清华智能产业研究院(AIR)。 项目负责人聂再清,清华大学国强教授、AIR首席研究员,主要研究领域是大数据与AI的前沿创新,以及在健康医疗领域的产业应用,更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。 △聂再清 此次开源的BioMedGPT-1.6B,其实是他和团队正在做的BioMedGPT的单机轻量版,后者是一个适用于生物医药领域研发的通用大模型。 1.6B版本先行开源,目的是小试牛刀,同时让行业相关科研人员有东西可用。 所以,这个BioMedGPT究竟是做什么的,团队目前进展如何?在业界已有不少生物医药专业大模型的情况下,做通用大模型的考量是什么,又要如何去做? 聂再清教授向我们解答了背后的思考。 生物医药版GPT,也应具备“涌现”潜力 先来看看BioMedGPT究竟是个什么项目,进展到了哪一阶段。 聂再清教授认为,就像ChatGPT成为了NLP领域的基础大模型一样,BioMedGPT也会成为生物医药领域的基础大模型。 但在这里,“像ChatGPT”并不仅仅意味着BioMedGPT=生物医学大模型+对话能力,而是和ChatGPT一样,会出现智力涌现的情况。 只不过,这里的“智力”,指的是生物医学领域方面知识的理解、规律的发现与灵感的启迪。 这个基础模型的底座能够给药物发现、分子/蛋白质设计等应用提供底层能力,同时能够成为生物医药研究者的助手(Copilot)辅助研究者更高效的开展研究探索。 所以,能实现这种效果的BioMedGPT,架构上究竟长啥样? 整体来看,它是一个具备多个输入Encoder的模型,这些Encoder会先分别处理不同模态的输入,如分子、蛋白质和文献等。 然后,将这些不同模态的输入,进行统一表示处理,这样就能学习到不同模态之间的关联知识。 这给了模型“融会贯通”的能力,既可以读文献、查专利,又可以读分子序列、蛋白结构、实验数据。 不仅如此,BioMedGPT也是首个将多模态知识引入模型构建的项目,通过知识图谱的方式将生物医药领域的知识注入到模型中,以增强模型的泛化能力和可解释性,同时能够应对科研领域知识的快速更迭,让模型持续学习,变得更“聪明”。 基于这种融会贯通与知识增强的能力,BioMedGPT在下游的多项任务中表现出了整体的效果提升。 目前团队已经完成了实验验证阶段,用一个比较小的端到端模型证明了这种思路的可行性。 那么最终能在生物医药方面表现出“智力涌现”的模型,预计在什么规模? 聂再清教授认为,模型参数量级预计在几百亿左右,而训练这一模型达成“涌现”效果的数据量,几十亿到百亿级应该也就够了。 事实上,在ChatGPT出现之前,也就是一年多以前,聂再清和团队就已经在筹备这一项目,目前清华AIR生命科学相关团队规模已经达到50人左右。 对于BioMedGPT的未来,聂再清教授很有信心: 预计两年内,这个模型应该会在小范围内具备一定影响力,至于像ChatGPT那样成为行业通用大模型,做到那样的影响力可能至少还需要3~5年。 但即便如此,BioMedGPT模型究竟能否成功,目前仍旧是一个未知数。 同时对于大模型训练必不可少的算力和数据等方面,也仍然是业界关注的话题。 对于这些观点和想法,聂再清教授又是如何看待的? “一个理性而大胆的尝试” 大模型的发展和AI技术的更迭组成了ChatGPT为首的一波AI新浪潮。 但早在聂再清教授动念要将生物医药学科知识“塞”进大模型里时,ChatGPT还没打破沉寂。 所以为什么要做?为什么敢做? 时间回到ChatGPT刮大风之前。当时,GPT-2已经可以编故事,下象棋;等到1750亿参数GPT-3出现,已经博得众人瞩目:不仅延续了前代编故事的能力,还能写代码、答问题…… 利用大规模文本数据学习语言知识和规律,加上狂叠参数的暴力美学,GPT-3已经在通用领域任务中出现涌现能力,到GPT-3.5,基本的逻辑推理能力突然出现。 在生物和化学领域,生命的本质可以看做一种精密的编码语言,尤其是生命科学领域中微观世界的分子序列数据。...
ChatGPT会给化学家带来什么?
ChatGPT与化学

ChatGPT会给化学家带来什么?

ChatGPT会给化学家带来什么? 译自Chem-Station网站日本版 原文链接:ChatGPTが作った記事を添削してみた 翻译:炸鸡 各位化学空间的读者们,你们好呀!今天,我们不唠化学,来唠唠AI与化学的“邂逅”。笔者看到了一篇深入探讨聊天机器人ChatGPT会如何辅助化学教授的工作的论文。这篇论文由Michelle Francl教授撰写,标题更是简单直率地起作“ChatGPT saves the day”。基于这篇论文,让我们一起来思考ChatGPT的优点和不足。 ChatGPT saves the day Michelle Francl, Nat. Chem., 2023. DOI: 10.1038/s41557-023-01253-7 ChatGPT能为化学教授做什么? Francl教授一直在思考ChatGPT会如何辅助化学教授的工作。为此,她尝试将自己的一部分工作交给ChatGPT做。比如她给ChatGPT下指令“请写出Nature Chemistry的短评”。但结果差强人意,ChatGPT只交出了高中生水平的5段篇幅的短论文。 但是,Francl教授没有放弃,她再次给ChatGPT下指令“请写一篇更高水平的短评”,然而,ChatGPT给出了如下的答案: “做一名化学教授并非易事。除了教学和指导学生之外,您还需要了解本领域的最新研究进展。这绝非易事。但是如果我告诉您有一种方法可以让您的生活变得更轻松呢?这就是ChatGPT–一款拯救您的人工智能工具!” ChatGPT面对更高的要求时“罢工”了。从这个小实验中我们可以看出ChatGPT有协助化学教授工作的可能性,但尚不能完全代替人类工作。 ChatGPT的局限 Francl教授还测试了ChatGPT解答化学试题的能力。比如问ChatGPT“如果冰水的pH值为7,那么在5 ℃时为酸性还是碱性?”。但ChatGPT认为pH7属于中性,和温度没有关系。这明显是个错误的认知。这表明ChatGPT还没有能完全理解化学专业知识。 除了Francl教授,还有其他化学教授也测试了ChatGPT在化学上的“才能”,结果都和Francl教授的实验结果差不多。化学家Cayque Castro Nascimento和André Pimentel测试了ChatGPT直接执行化学任务的能力。结果表明[1],ChatGPT所举的例子中超过一般都是没有提供配位化合物的几何形状的,超过2/3的例子更是没有给出化合物正确的SMILES记法。 总结 ChatGPT毫无疑问会成为辅助化学教授工作的得力武器,但遗憾的是现阶段辅助能力有限,对于需要运用专业化学知识的任务还不能完全胜任。但还是展现了其在管理上的辅助能力。 今后像ChatGPT一样的AI工具可能会给化学教授的工作带来翻天覆地的改变。AI可能会使一部分职业成为历史,但ChatGPT强大的功能也会让一部分劳动者如虎添翼。我们要深刻认识到这个新工具会给我们的行业带来什么样的改变,尽早做出应对之策。 Francl提供了一个独特的视角来探讨AI与化学的交叉。《ChatGPT saves the day》一文为探讨AI对化学界会产生什么样的影响提供了宝贵的信息。 以上就是就是《ChatGPT saves the day》的简要概括和解说。这篇详细探讨了AI的潜力和不足的文章为今后理解AI在化学界的职能迈出了重要的一步。 参考文献 Castro Nascimento, C. M.; Pimentel,...