AI与化学
曹建峰腾讯研究院高级研究员陈楚仪腾讯研究院高级研究员导语:随着ChatGPT持续火爆,背后的大型语言模型(LLM)和生成式AI技术(Generative AI)日益备受关注。AI领域的新一轮竞赛已然开始,微软、谷歌等已在搜索引擎领域展开角逐,将ChatGPT能力融入搜索服务。AIGC浪潮下,除了ChatGPT等面向终端用户的应用形态,生成式AI和AIGC技术更广阔的应用空间将是产业互联网领域,基于生成式AI和AIGC技术的合成数据,将成为人工智能技术在各行各业应用普及和能力提升的核心要素,支撑人工智能未来发展。而且,有研究预测,到2026年ChatGPT等大型语言模型的训练就将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,未来也需要借助合成数据解决ChatGPT等AIGC模型的潜在数据瓶颈,推动进一步发展。在过去的2022年,AIGC(AI-Generated Contents,人工智能生成内容)无疑是最引人瞩目的科技关键词,从引爆AI作画领域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,人工智能正加速实现从感知、理解世界到生成、创造世界的跃迁。以AIGC这一加速扩张的新疆域为标志,AI领域正在迎来下一个时代。多模态AI模型有望成为继移动互联网之后新的技术平台。而且随着AIGC模型的通用化水平和工业化能力的持续提升,其有望带来一场自动化内容生产与交互变革,引起社会的成本结构的重大改变,进而在各行各业引发巨震。经过了2022年的预热,2023年AIGC领域将迎来更大发展,AIGC将更趋主流,AIGC内容的类型和质量将不断提升,将有更多的企业主动拥抱AIGC,AIGC领域将诞生全新的职业机会(如提示词工程师)。当然,政府对AIGC的监管也将有所加强。[1] 在数据领域,我国出台的《关于构建数据基础制度更好发挥数据要素作用的意见》提出,顺应经济社会数字化转型发展趋势,推动数据要素供给调整优化,提高数据要素供给数量和质量。在强化数据要素优质供给方面,基于AIGC技术的合成数据将能发挥巨大价值,将以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。 因此,产业政策需要着力支持、促进AIGC在产业互联网领域的深入应用,培育、打造合成数据、AIGC等未来产业,持续壮大我国发展人工智能、数字经济、产业互联网等新技术新业态新应用的数据优势。 AIGC技术推动合成数据(synthetic data) 领域迎来重大进展 随着AIGC技术持续创新发展,基于AIGC算法模型创建、生成合成数据(synthetic data)迎来重大进展,有望解决AI发展应用过程中的数据限制,进一步推动AI技术更广泛的应用。因此,业界非常看好合成数据的发展前景及其对人工智能未来发展的巨大价值。Forrester、埃森哲(Accenture)[2]、Gartner、CB Insights[3]等研究咨询公司都将合成数据列为人工智能未来发展的核心要素,认为合成数据对于人工智能的未来而言是“必选项”和“必需品”。例如,Forrester将合成数据和强化学习、Transformer网络、联邦学习、因果推理视为实现人工智能2.0的五项关键技术进展,可以解决人工智能1.0所面临的一些限制和挑战,诸如数据、准确性、速度、安全性、可扩展性等。[4]Gartner预测称,到2030年合成数据将彻底取代真实数据,成为AI模型所使用的数据的主要来源。[5]MIT科技评论将AI合成数据列为2022年十大突破性技术之一,称其有望解决AI领域的数据鸿沟问题。[6]数据是人工智能的燃料和驱动力,合成数据将极大拓展人工智能发展应用的数据基础,可以认为,合成数据关乎人工智能的未来。 在概念上,合成数据是计算机模拟(computer simulation)技术或算法创建、生成的自标注信息,可以在数学上或统计学上反映真实世界数据的属性,因此可以作为真实世界数据的替代品,来训练、测试、验证AI模型。简而言之,合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。[7]合成数据拥有很长的历史,在其发展过程中技术不断创新。 例如,游戏引擎、3D图形等模拟技术(simulation technology)可以创建高保真的仿真物体和仿真环境,而结合了AI技术的3D-AI技术则可以极大提升自动化生产3D内容的效率和保真度(fidelity)。得益于生成对抗网络(GAN)、变分自编码器(VAE)、Transformer模型、扩散模型(Diffusion Model)、神经辐射场模型(NeRF)等不断涌现的AI算法,不仅合成数据的种类得到了扩展,而且其质量也不断得到提升。 就目前而言,合成数据大致可分为三类:表格数据/结构化数据,图像、视频、语音等媒体数据,以及文本数据。[8]这几类合成数据在多个领域都有应用。AIGC技术的持续创新,让合成数据迎来新的发展契机,开始迸发出更大的产业发展和商业应用活力。目前主要呈现以下四个方面的发展趋势。 合成数据为AI模型训练开发提供 强大助推器,推动实现AI2.0 人工智能的发展应用离不开数据,但真实世界数据面临着难以获取、质量差、标准不统一等诸多问题。为此,计算机模拟技术或算法生成的合成数据,作为真实数据数据的廉价替代品,日益被用于创造精准的AI模型。 合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分。2019年的一篇论文《合成数据用于深度学习》(synthetic data for deep learning)认为,合成数据是现代深度学习领域冉冉升起的最具前景的通用技术之一,尤其对于依赖于图像、视频等非结构化数据的计算机视觉技术而言;并认为合成数据对于人工智能的未来发展至关重要。[9]而且,研究表明在AI模型的训练开发上,合成数据相比基于真实物体、事件或人物的数据,可以发挥同样好甚至更好的效果。[10] 总之,合成数据技术可以实现更廉价、更高效地批量生产制造AI模型训练开发所需的海量数据(诸如训练数据、测试数据、验证数据等等),作为对真实数据的替代或补充,将推动人工智能迈向2.0阶段,从本质上扩展AI的应用可能性。 可以说,目前人工智能仍处在1.0阶段(AI1.0),数据是最大掣肘,业界利用真实世界数据训练AI模型面临多方面问题:数据采集、标注费时费力、成本高企;数据质量较难保障;数据多样化不足,难以覆盖长尾、边缘案例,或者特定数据在现实世界中难以采集、不方便获取;数据获取与使用、分享等面临隐私保护挑战和法规限制,等等。这些数据方面的限制在很大程度上阻碍了人工智能更广泛的应用和部署。 合成数据有望解决这些问题,推动人工智能迈向2.0阶段(AI2.0),可以在更大程度上拓展人工智能的应用。在AI2.0阶段,人们不仅可以利用合成数据更高效地训练AI模型,而且可以让AI在合成数据构建的虚拟仿真世界中自我学习、进化,这将极大扩展AI的应用可能性。具体而言,对于人工智能而言,合成数据可以发挥诸多价值: (1)实现数据增强和数据模拟,解决数据匮乏、数据质量等问题,包括通过合成数据来改善基准测试数据(benchmark data)的质量等; (2)避免数据隐私/安全/保密问题,利用合成数据训练AI模型可以避免用户隐私问题,这对于金融、医疗等领域而言尤其具有意义; (3)确保数据多样性,更多反映真实世界,提升AI的公平性,以及纠正历史数据中的偏见,消除算法歧视; (4)应对长尾、边缘案例,提高AI的准确性、可靠性,因为通过合成数据可以自动创建、生成现实世界中难以或者无法采集的数据场景,更好确保AI模型的准确性; (5)提升AI模型训练速度和效果。总之,利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练AI模型,进而极大扩展AI的应用可能性,将人工智能推向新的发展阶段。 合成数据助力破解AI“深水 区”的数据难题,持续拓 展产业互联网应用空间 合成数据早期主要应用于计算机视觉领域,因为计算机视觉被广泛应用于自动驾驶汽车、机器人、安防、制造业等领域,在这些应用场景中打造AI模型都需要大量的被标注的图像、视频数据。但获取现实数据往往并非易事。 以自动驾驶汽车为例,由于实际道路交通场景千变万化,让自动驾驶汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的,必须借助于合成数据才能更好地训练、开发自动驾驶系统。为此,自动驾驶企业开发了复杂的仿真引擎来“虚拟地合成”自动驾驶系统训练所需的海量数据,并高效地应对驾驶场景中的“长尾”问题和“边缘案例”。 例如,腾讯自动驾驶实验室开发的自动驾驶仿真系统TAD Sim可以自动生成无需标注的各种交通场景数据,助力自动驾驶系统开发。在安全的、合成的仿真环境中,计算机可以模拟任何人类想象得到的驾驶场景,诸如调节天气状况、添加或移除行人、改变其他车辆的位置等等。可以说,合成数据和仿真技术是自动驾驶的核心支撑技术。最早涌现的一批合成数据创业公司就瞄准的是自动驾驶汽车市场,帮助自动驾驶企业解决其在自动驾驶系统开发过程中所面临的数据和测试难题。 目前,合成数据正迅速向金融、医疗、零售、工业等诸多产业领域拓展应用。合成数据在金融服务领域的探索仍处于早期且不断拓展,并且受到咨询公司、金融巨头和监管机构的关注。 合成数据背后的生成式AI被Gartner评为2022年银行和投资服务领域越来越受欢迎的三项技术之一。[11]生成性AI受欢迎的原因是能够通过合成数据以成本更低、易规模化、隐私保护合规的方式提供接近真实世界的数据。而在银行和投资服务领域,生成对抗网络(GAN)和自然语言生成(NLG)的应用可以在大多数欺诈检测、交易预测、合成数据生成和风险因素建模的场景中找到。例如,美国运通(America Express)利用GAN创建合成数据来训练、优化其进行欺诈检测的AI模型。谷歌利用AI生成的医疗记录来帮助预测保险诈骗(insurance fraud)。 摩根大通(J.P.Morgan)2021年9月在其官网发布相关研究,提出通过生成合成数据集加快金融服务领域的AI研究和模型开发,来改善服务体验、解决欺诈检测和反洗钱等重要问题。[12]国外金融服务业所产生的大量真实数据因为法律限制(如欧盟的GDPR和美国的CCPA)和隐私保护要求无法使用或使用存在诸多限制。合成数据创造的新样本具有真实数据的性质,增加真实数据中的罕见样本,以便更有效地训练机器学习算法。一个关键的领域是欺诈检测模型训练。由于欺诈性案件的数量与非欺诈性案件相比较十分稀少,研究人员很难有效地从可用数据中训练模型,导致无法针对欺诈性行为进行建模。然而,合成数据可以生成比实际数据中欺诈案例比例更高的合成数据样本,用于帮助改进模型训练。 图:金融数据合成过程(来源:摩根大通官网) 英国金融行为监管局(Financial Conduct...