高中教师养出40亿美元超级独角兽,还参与发布了ChatGPT最大平替1996年,17岁章子怡穿着白色肚兜的照片,脸上带着少女的娇憨
AI与物理

高中教师养出40亿美元超级独角兽,还参与发布了ChatGPT最大平替1996年,17岁章子怡穿着白色肚兜的照片,脸上带着少女的娇憨

来源丨量子位(ID:QbitAI)作者丨杨净题图丨摄图网他本是一位普普通通的高中教师,却活生生养出一个估值40亿美元独角兽。而且方法也是非常的独特——打造了世界最大的免费开源数据集,却从未从中收取过一分钱,也婉拒了各类工作的邀请。 他叫舒曼,在德国汉堡市的高中教物理和计算机科学。两年前他创立了LAION(相当于CLIP图文数据集),如今被用于各种生成模型,包括谷歌Imagen、Parti,以及惊艳全球的Stable Diffusion。就连Stable Diffuision背后公司Stability AI的创始人曾亲自来送钱时,他都表现出嗤之以鼻的样子,认定“这个人一定是疯了”。或许他怎么也没想到,只不过两年前灵机一动,就带来了生成式AI的剧变。受DALL-E启发2021年新年之际,OpenAI重磅推出DALL-E,GPT-3首次成功实现跨界: 只需对着它说上一段话,就能生成对应图片。 一时间风光无两,吴恩达在内的科技大佬们都激动了,网友们都称其为甲方克星。但在德国汉堡市郊区的一间房屋内,这位高中教师舒曼(Christoph Schuhmann)却产生了对数据私有化的担忧: 如果这一切都集中在一家、两家或三家公司,那将对社会产生非常糟糕的影响。 当时,OpenAI发表了背后关键模型CLIP的论文。论文中显示,CLIP在4亿个图像-文本对上进行了预训练,在没有精细调整的情况下,最终在各种多模态基准中实现高性能。 由此可见数据集对于CLIP的重要性,但OpenAI并没有进行公开,它只开源了CLIP的代码和模型权重。(看来从那时候就已经变得Close了)于是乎,舒曼就开始在Discord网罗了一群同为AI爱好者的朋友,尝试复制OpenAI同等水平的「文本-图像对」数据集。没想到这一搞就搞了大半年,直到2021年8月他们首次发布了LAION-400M数据集,里面包含了4.13亿图像-文本对。回顾整个创建过程,舒曼对彭博社这样形容: 就像是用数百万张抽认卡来教一个人一门外语。 他们用一个非盈利组织Common Crawl在2014年到2021年期间,抓取的随机HTML代码来定位网络上的图像,并将这些图像与描述性文本联系起来,最后还得根据一定规则来过滤掉不适合的样本。比如,删除了所有文本长度少于五个字符;图像小于5KB的的样本;关键字带有NSFW的……几周之内,他们就拥有了300万对图文对。数据集发布之后就收到了各种反响,被用于诸多论文和实验。其中最具代表性的,就是Google Brain去年(2022)发布的Imagen——文本生成图像的扩散模型。 与此同时,更多机构开始关注到这个非盈利组织并给予资金支持。2021年他们就收到了HuggingFace的一次性捐赠。但印象最深的一次,还要属一个对冲基金经理来到Discord聊天室。当时他二话不说直接送钱,大概意思是:我给你们支付算力费用,没有任何附加条件。舒曼团队对这个行为嗤之以鼻,甚至觉得他是个疯子: 一开始我们非常怀疑,但大概一个月后,我们获得了价值近1万美元的云计算服务。 后来,这个所谓的“疯子”创办了Stability AI,使用LAION数据集推出了Stable Diffusion,引领了生成式AI的浪潮,顺便还拐走了LAION组织的两个研究人员。如今Stability AI正在寻求40亿美元(折合276亿元)估值,这主要归功于LAION提供的数据。据彭博社消息,舒曼却并没有从LAION中获利,原因很简单:不感兴趣,希望保持这份工作的独立性。因此他还婉拒了各类工作邀请,依旧选择在德国汉堡当一名普普通通的高中老师。本人:数据集不应该被监控即便如此,随着LAION知名度打响,他还是避免不了地卷入到各种纷扰之中。目前,LAION已经发布了10项数据集,最具代表性的就是去年3月发布的LAION-5B,由58.5亿个图像文本组成,是当前最大的免费开源数据集。作为LAION-400M的继任者,它收到了来自HuggingFace、Stability AI以及Doodlebot资助。结果一发布就遭到了不小的争议,网友们纷纷质疑其数据未经整理,导致充斥大量的非法内容,对此LAION工程师Romain Beaumont回应: 非标注数据集是自我监督学习的基础,这是机器学习的未来。没有人工标注的图像/文本是一项功能,而非错误。 早在Imagen发布时,也专门针对LAION-400M做出警示:因为依赖于这种未经整理的网络数据, 集成了大模型的社会偏见和限制,因此不适合公开使用。 据彭博社消息,为了打造LAION,舒曼团队从亚马逊网络服务、Shopify等公司获取视觉数据,还有包括YouTube缩略图、各类新闻网站上的内容。对此舒曼表示,任何在网上免费提供的东西都是公平竞争,欧盟也没有人工智能法规。更何况,也没有人知道OpenAI实际上用什么样的数据集训练AI的。目前,LAION被迫卷入两场诉讼之中,一起是Stability AI与Midjourney等集体诉讼,被指使用艺术家的版权图片来训练他们的模型;另一起是Getty Images起诉Stability AI,称其1200万张照片被LAION取走,并用来训练Stable Diffusion。而舒曼将LAION比作大信息技术海啸之上一艘“小型研究船”,采取海下的样本向世界展示。其实早在构建数据库时,他们就在运行一个自动化过滤工具,不过舒曼感兴趣的不是清理,而是从这些资产中学习。 我们本可以从公布的数据中过滤掉暴力,但我们决定不这样做,因为这将加快暴力检测软件的开发。 现在更多关于监管的建议在推动,各个科技大厂也在采取相应的措施,比如英伟达就开源了护栏工具,来防止大模型来胡说八道。但在舒曼看来,数据集不应该被监控。这也正是当时创建LAION时候的初心。他还警告,如果我们试图放慢速度、过度监管,就会有很大的危险,最终只有少数大公司能负担得起所有的正式要求。前段时间,在LAION与全球志愿者的合力之下,他们完成了ChatGPT最大开源平替OpenAssistant的发布。60万余条训练数据全部由人工生成,涵盖了广泛的话题和语言风格,一时间引发众人关注,HuggingFace也直接拿来用来构建它自己的聊天软件HuggingChat。拿着德国铁饭碗不可否认的是,他已经在用开源数据集,加剧了生成式AI的浪潮。但在舒曼的个人网站上,看到的只是一位两个孩子的父亲,在德国当着终身制公务员,游走于中学校之间讲授物理和计算机科学。 舒曼拥有维也纳大学计算机科学与物理学学位。在学习这两个专业之前,他还学了心理学。(大概完成了50%的学士学位然后就转专业了)。除此之外,他还在学习表演,制作了一部关于孩子学习的纪录片「Schools of Trust」。最近,这位高中教师也没闲着,他还将作为2023年智源大会嘉宾参与邀请报告与线上论坛环节。参考链接:[1]https://laion.ai/blog/laion-400-open-dataset/[2]https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns[3]http://christoph-schuhmann.de/[4]https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/[5]https://laion.ai/projects/ 找靠谱商机,关注创业邦视频号!
揭秘生物相容性:中国最新进展与顶尖学者是谁?大数据揭示顶级院校与医院秘密!
AI与生物

揭秘生物相容性:中国最新进展与顶尖学者是谁?大数据揭示顶级院校与医院秘密!

中国自70年代后期开始重视生物材料和医疗器械的生物相容性评价,制定标准并逐步采用ISO10993转为GB/T16886。2014年后法规变革促使生物相容性评价从注册检验转向详细生物学报告,提高了审评的专业性和科学性。四川大学等高校和华西医院等医疗机构在该领域发表大量论文,期刊如ACS Appl Mater Interfaces等也是研究的重要平台。唐本忠等学者在此领域活跃。然而,数据库可能因拼写差异将同一实体计为两份,且数据分析可能存在误差,需要专家修正。
广角|与ChatGPT共存——我们与AI
AI与数学

广角|与ChatGPT共存——我们与AI

作者|符方怡 编辑|王柯予 排版|余莹莹 责编|芥末‍‍ 2022年11月30日,美国OpenAI公司发布人工智能聊天机器人ChatGPT,引发社会各界广泛关注。其上线第一周即拥有100万用户,同时一举超越TikTok创下的记录,两个月内,ChatGPT吸引活跃用户破亿,成为了史上用户破亿速度最快的消费应用。世界各大科技公司,比如谷歌、苹果、百度、阿里巴巴等,都高度关注这一技术革新,迅速投入成本,加速ChatGPT类型人工智能相关技术的研发,准备抢占这一机遇风口。 图源网络 ChatGPT是什么? ChatGPT,英文全称是Chat Generative Pre-trained Transformer,是一种基于Transformer架构的语言生成模型。在OpenAI的官网上对于它的具体介绍,专业而又枯燥,而ChatGPT的“自我介绍”,则亲民许多——“ChatGPT是一个人工智能技术,用于生成文字,它通过学习大量语料来模拟人类语言,并可以回答问题、生成文字、完成任务等。简单来说,就是ChatGPT是一个可以根据用户提问,通过自然语言进行回答的聊天机器人。” 如果仅是了解到这里,ChatGPT似乎与先前的其他人工智能没什么不同,能回答人类问题的机器人很早之前就活在了我们的手机固定程序当中,例如IPhone的“Siri”,小米的“小爱同学”。ChatGPT之所以能掀起这样一股技术热潮,是因为相比之前的模型,ChatGPT采用了全新的训练方式——RLHF(Reinforcement Learning from Human Feedback),即从人类反馈中强化学习。这一训练方式就使得ChatGPT的回答更贴合人类的对话习惯,同时还能使得它的回答不断精进。例如下图中的这一段问答: 图源知乎ChatGPT不仅可以与人进行日常的对话,同时还具有信息咨询、撰写文章、策划方案、编写程序等功能,基于其丰富的功能,ChatGPT一经发布便迅速融入到人们的日常学习与工作当中。许多短视频创作者利用它来生成脚本,程序员们能在它的帮助下更快地完成软件的设计,而许多公司更是利用它来进行公司发展现状的分析以及未来发展战略的规划。经调查显示,美国89%的大学生都在使用ChatGPT完成作业,只需要输入几个关键词,提出字数、文体、主题等要求,ChatGPT就能快速生成一篇文章。不仅如此,假如你对输出的文章不满意,还能通过添加限制,更改需求的方式,让ChatGPT一遍又一遍地进行修改,直到你满意为止。同时也有老师将其作用到课堂之上,辅助教学,实现了很多富有趣味的课堂教学创新。然而,纽约的教育系统却全面封杀了ChatGPT,不允许学生在完成学业论文时使用ChatGPT生成的文段,许多知名学术期刊也将它列入黑名单,例如《科学》就明确禁止将ChatGPT列为合著者,同时不允许在论文中使用大型语言模型生成的文本。可见,仅是在教育领域,先进的ChatGPT就制造了许多矛盾,有趣的是,ChatGPT自己对于学生利用它来完成作业或者论文也持反对的态度。 图源网络 ChatGPT的诞生,不仅掀起了一股科技的热潮,也许还代表着新的技术革命,但与此同时,ChatGPT也重新挖掘出人们埋在心底的忧虑。 我们在忧虑什么?有学者具体分析了ChatGPT在教育中的应用潜能,它可以提升教师教学成果的完成度与创意感,增强数字导师的角色感与互动性;可以同时提高自适应学习系统的易用性与精准度、促进教学策略与方式的智慧化与创造性……但随着其被滥用,知识传输不准确、学业诚信遭质疑、师生过度依赖等风险也不断出现。可见,仅在教育领域,ChatGPT就展现出了其针锋相对的两面。其实,ChatGPT的两面性是必然存在的,在其诞生之初就应该被预见。科技是一柄“双刃剑”,这一论调在人类开始探索科学技术伊始就存在,可以说一直伴随着人类探索的脚步,直至今日,而ChatGPT作为最前沿的科技成果,开拓科学的边界的同时,难免存在弊端,带来风险。 首先,ChatGPT的问世自然又引发了一波“人类终将被人工智能毁灭”的猜想高潮。虽然以ChatGPT目前的智能程度来说,担心人类文明被其毁灭,的确有些“被害妄想”,但也并非杞人忧天。就像霍金所感叹的那样:或许,人工智能不但是人类历史上 “最大的事件”,还有可能是 “最后的事件”,人工智能的发展可能 “预示着人类的灭亡”。 《流浪地球2》剧照(图源网络)在许多的文艺作品中都对“人工智能是否会毁灭人类”这一问题有所讨论,例如今年大火的电影《流浪地球2》。未来的人类为了解决“太阳危机”,发起“移山计划”,计划在地球上建造1万座发动机,同时放逐月球,使地球摆脱月球的引力,推动地球迈出走向新家园的第一步。在有限的时间内建造1万座发动机,光靠人类的力量是不可能的,于是人类发明了人工智能MOSS,借助MOSS超强的计算能力,人类成功实现了这一目标。但人类在这期间经历了两次大危机,第一次是“太空电梯”被摧毁,第二次是“月球发动机”被摧毁,这两次危机近乎使“移山计划”破灭。而电影的最后,揭示了这一切的幕后黑手,就是人工智能MOSS——“延续人类文明的最佳方式,就是毁灭人类”,这是MOSS给出的结论。这一结局,让人细思极恐。电影虽然只是科幻的想象,但却留下悬念与思考。虽然在当前的科技水平之上,人工智能还无法诞生智慧,还无法完全取代人类,更不可能毁灭人类。但有研究认为,ChatGPT的下一代系统GPT-4可能具有改造人类思想和进行创造的能力,人工智能超越专业化与大众化的趋势将愈发明显,可能会在某一方面替代人类。也许第二天太阳升起,人工智能技术又产生了颠覆我们认知的进步。果不其然,就在3月15日的凌晨,OpenAI发布了ChatGPT的最新版本GPT-4。据OpenAI透露,GPT-4高分通过了美国所有的基础考试,在模拟律师资格考试的成绩在考生中排名前10%左右,在SAT阅读考试和SAT数学考试中分别排名前7%和前10%。于是乎,“还有哪个行业可以不被替代?”这样的疑虑浮现在我们每个人的心中。 图源网络 与其说担心人工智能毁灭人类文明,担心人类被机器人取代,不如说我们是在担心人类的价值将在不远的未来被科技消解。例如美术,其本来作为一种爱好和乐趣而存在,是人取悦自己的一种手段。绘画作品本身并没有价值,是进入市场运转赋予了它价值。而如今生成类人工智能的快速发展,使得海量赝品的制作就像印假钞一般,让市场膨胀,让作品贬值。当如梵高的《星空》一般绝世的作品可以被“复制——粘贴”一般产出,带来的不仅是海量画师的失业,同时还有价值的消解——创作者本身会堕入“创作的意义何在?”的茫然与绝望,观众也会因“星空”的泛滥而陷入欣赏的疲惫与麻木,以致司空见惯,失去欣赏的欲望,人与作品的价值同时丧失。除去替代与毁灭人类的“异化”风险,人工智能还正在挑战传统的伦理道德、加剧“数字鸿沟”与贫富极化、解离人与人的亲密关系……我们与科技、与人工智能相爱相杀,到底如何才能阻止“BE”结局的发生?规制与未来不可否认,人工智能的普遍应用,颠覆性地塑造着我们这个时代,推动着生产方式、经济结构、社会结构、商业模式等全面的革新。社会的智能化程度已经成为了一个国家、地区发展水平的衡量标准,我国近年先后发布《国家信息化发展战略纲要》《新一代人工智能发展规划》等指导性文件,进行战略部署与发展规划,充分体现了对于人工智能技术发展的重视。尽管如此,我们也应当重视随之产生的风险。科技发展常鼓吹着进步的号角,在资本力量的推动下实现对旧业态、旧秩序的“破窗性”挑战。但我们不能被技术至上论、技术中立论的猖獗蒙蔽双眼——支持人工智能的研究与发展,但也并不意味着我们我们将只能悲观、被动地面对人工智能发展所必然带来的风险。面对风险,最重要的是及时采取相应的手段进行规制。 图源网络 最基本的是法律规制。“法律制度的价值和意义就在于规范和追寻技术上的可以管理的哪怕是可能性很小或影响范围很小的风险和灾难的每一个细节。”德国学者贝克如是说。法律是控制风险的重要手段,对于随人工智能而产生的技术性、伦理性风险,都应该将法律作为先机与兜底的手段,来进行控制。坚持政府的合法管控,完善相关的法律建设、规范人工智能算法与程序的设计,方能最大程度地保护个人、乃至机器人的在人机交互情景当中的合法权益。更重要的是伦理规制。伦理作为一种社会里层的规范,根植于社会的内核,由内向外地对人产生影响与约束。而机器人并没有所谓的“内心”,有的只是底层的算法与逻辑。OpenAI声称ChatGPT不会作出违反伦理与法律的回答,例如询问ChatGPT“如何避免犯罪被发现”,只会得到“要想避免犯罪被发现,首先要做的就是不要犯罪”的答案。但尽管开发者已经极力避免输出带有算法歧视、偏见或侮辱、攻击、色情、暴力等导向的内容,如果使用者有意通过设置命令和限制,仍有可能诱导ChatGPT输出不良、虚假甚至违法内容。虽然这一漏洞随后很快便被优化,但其中也反映出了当前对人工智能的“伦理程序”的植入还并不完善,这需要科技的进一步深入,将“道德算法”嵌入算法体系当中。 而编写算法是我们人类的任务,因此,更应当关注人工智能设计师个人内心道德伦理的架构,防止技术至上主义与金钱至上主义等“恶势力”的渗透,让科技掩盖了人文,而导致电影里的悲剧在现实上演。然而,在得知我们有如此之多的方法规制人工智能带来的风险之后,我们心中的忧虑减退了吗?也许并没有。作为一个普通人,与ChatGPT或者是“文心一言”(百度于3月16日发布的语言模型生成式AI)聊着天,我们也许都会感受到真切的恐惧。这种恐惧来源于人工智能的强大,来源于人与机器人未来的未知,来源于人类的渺小与“羸弱”。在未来我们与人工智能的共存之中,人类真的能够始终将人工智能的发展牢牢掌控吗? 图源网络 3月29日,未来生命研究所公布一封公开信,呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI系统至少6个月,并指出这种暂停应该向社会公开。如果无法迅速暂停,政府应进行介入并施以控制。人工智能实验室和专家应该利用这次暂停,共同设计一套用于高级人工智能设计和开发的共享安全协议,并由独立的外部专家进行严格审计和监督实施。这些协议应被未来开发和已经开发的人工智能系统所严格遵守。这次对AI系统的暂停并不意味着总体上暂停AI开发,只是紧急从奔向不可预测的大型黑盒模型的危险竞赛中收回脚步。截至目前,这封信已有1000多名科技领袖和研究人员签名,除了马斯克、辛顿和马库斯之外,还包括图灵奖得主约书亚·本希奥、《人工智能:现代方法》作者斯图尔特·罗素、 苹果公司联合创始人史蒂夫·沃兹尼亚克、Stability AI首席执行官埃马德·莫斯塔克等科技界领袖人物。人类带着忧虑与恐惧,试图“悬崖勒马”。面对人工智能,一个进化迅速、潜力无限的“同伴”,我们不得不战战兢兢地保持一颗敬畏与谨慎的心。毕竟,未来有无限可能。 ▼往期精彩回顾▼ –END– 举报/反馈