世界最大免费开源数据集背后的故事：高中物理老师如何养出400亿独角兽？

文章主题：

编者按：本文来自微信公众号量子位（ID：QbitAI），作者：杨净，创业邦经授权转载

他本是一位普普通通的高中教师，却活生生养出一个估值40亿美元独角兽。

而且方法也是非常的独特——

打造了世界最大的免费开源数据集，却从未从中收取过一分钱，也婉拒了各类工作的邀请。

他叫舒曼，在德国汉堡市的高中教物理和计算机科学。

🌟 LAION, the game-changer in AI 🎮 Launched two years ago by a visionary, it’s now a powerhouse driving innovation 🧠 In the realm of generative models, its impact is felt across multiple giants like Google Imagen & Parti. But wait till you see the groundbreaking Stable Diffusion that has taken the world by storm! 🌍This groundbreaking dataset, LAION, has revolutionized the AI landscape, serving as a catalyst for cutting-edge research and development. Its versatility has made it a go-to resource for creators in the industry 📊Without revealing any personal details or contact information, it’s worth noting that this trailblazing initiative has opened doors to countless possibilities, shaping the future of AI-driven technologies 🌠For those interested in staying updated on its latest applications and advancements, keep an eye on the leading players in the field who are constantly leveraging LAION’s potential. Don’t miss out on the exciting journey it’s引领! 🚀

🌟当 Stability AI 的创始人亲临，送上那笔意料之外的资金时，他的态度却出人意料地坚决。他直截了当地表达了自己的看法，仿佛在说：“这家伙，肯定脑子有坑。”这种不为金钱所动的坚定，展现出他对价值判断的独特标准，而非简单的金钱交易。

或许他怎么也没想到，只不过两年前灵机一动，就带来了生成式AI的剧变。

受DALL-E启发

2021年新年之际，OpenAI重磅推出DALL-E，GPT-3首次成功实现跨界：

只需对着它说上一段话，就能生成对应图片。

一时间风光无两，吴恩达在内的科技大佬们都激动了，网友们都称其为甲方克星。

🎨📚数据之屋，藏匿隐私？🤔位于德国汉堡郊外的这所静谧居所，背后却隐藏着一位名叫舒曼（Christoph Schuhmann）的高中教育者深深的忧虑。他对于现代科技如何侵犯个人数据的边界，犹如一道无形的锁链，紧紧束缚着信息时代的自由翱翔。🛡️💻舒曼教授，以其敏锐洞察力，察觉到大数据的双刃剑效应：它如同一座灯塔，照亮了生活便利，却也可能成为窥探隐私的暗夜之眼。💡🔍他担忧，数据的无边界流动可能导致个人信息的失守，就像那扇未上锁的门，随时可能被滥用。🛡️🔑在这个数字化时代，舒曼呼吁我们不仅要保护数字资产，更要捍卫个人数据的主权。他的声音，如同警钟，在这片信息海洋中回荡，提醒我们在享受科技带来的便利时，别忘了为自己的隐私披上一层无形的铠甲。🛡️🌐欲了解更多关于数据私有化与信息安全的深度探讨，不妨探索舒曼教授的学术世界，他的智慧结晶或许能为你揭示未来数字生活的真谛。📚🔍

如果这一切都集中在一家、两家或三家公司，那将对社会产生非常糟糕的影响。

🎉【OpenAI CLIP大揭秘】🚀🔥 神秘力量来袭！当OpenAI以其创新之作——CLIP模型震撼学术界时，一场无声的革命悄然展开！🔍💡 4亿对图像与文本的深度对话，这是CLIP的力量源泉。在广袤无垠的数据海洋中，它汲取智慧，无需繁复调教，就能展现出惊人的适应力。🎯🌍 不仅如此，CLIP在多模态基准上的卓越表现，就像一位全能选手，无论视觉还是语言，都能轻松驾驭，横扫各大赛场！🏆📝 研究论文中透露的不仅仅是技术突破，更是对人工智能未来潜力的深度洞察。它以强大的基础，预示着更多可能，让我们期待CLIP在未来带来更多惊喜！🎊💡 SEO优化提示：使用关键词”OpenAI CLIP”, “多模态基准”, “预训练适应力”, “人工智能未来潜力”等进行优化。

🌟数据集对CLIP来说至关重要，但这背后的秘密并未完全揭晓！💡OpenAI虽慷慨地分享了CLIP的源码和权重，却巧妙地保留了关键资源。🚀尽管如此，这个强大的模型仍能引领我们探索深度学习的新疆域。📚如果你对如何利用这些海量信息感兴趣，不妨深入研究CLIP的工作原理，它定会带给你意外的洞察与惊喜！🌐SEO优化提示：使用”数据集+CLIP+OpenAI+开源+重要性”等关键词，增加表情符号如💡、🚀和📚以提升可读性和吸引力。

（看来从那时候就已经变得Close了）

🌟🎨程序员的创意工场🌟💻 —— 舒曼引领AI潮流！💡在这个数字化的时代，一位热情洋溢的创新者，舒曼，正在 Discord 上集结一群志同道合的 AI 爱好者，开启一场追寻人工智能卓越之旅。他们的目标？复制 OpenAI 的辉煌成就，打造令人惊艳的「文本-图像」艺术盛宴！🌟🎨在这款全球领先的网络平台上，他们不约而同地聚集在一起，用智慧和代码编织梦想，共同探索着 AI 领域的无限可能。每一份数据，每一项尝试，都是通往未来技术高峰的坚实脚步。🚀🌈让我们一起见证，这个由热爱和技术驱动的小团体如何在数字世界中创造出属于他们的非凡成就！若您也对人工智能充满好奇，不妨加入他们，共享知识与创新的乐趣！👉JOIN NOW! 🤝💻

没想到这一搞就搞了大半年，直到2021年8月他们首次发布了LAION-400M数据集，里面包含了4.13亿图像-文本对。

回顾整个创建过程，舒曼对彭博社这样形容：

就像是用数百万张抽认卡来教一个人一门外语。

他们用一个非盈利组织Common Crawl在2014年到2021年期间，抓取的随机HTML代码来定位网络上的图像，并将这些图像与描述性文本联系起来，最后还得根据一定规则来过滤掉不适合的样本。

比如，删除了所有文本长度少于五个字符；图像小于5KB的的样本；关键字带有NSFW的……几周之内，他们就拥有了300万对图文对。

数据集发布之后就收到了各种反响，被用于诸多论文和实验。其中最具代表性的，就是Google Brain去年（2022）发布的Imagen——文本生成图像的扩散模型。

与此同时，更多机构开始关注到这个非盈利组织并给予资金支持。2021年他们就收到了HuggingFace的一次性捐赠。

但印象最深的一次，还要属一个对冲基金经理来到Discord聊天室。

当时他二话不说直接送钱，大概意思是：我给你们支付算力费用，没有任何附加条件。

舒曼团队对这个行为嗤之以鼻，甚至觉得他是个疯子：

一开始我们非常怀疑，但大概一个月后，我们获得了价值近1万美元的云计算服务。

后来，这个所谓的“疯子”创办了Stability AI，使用LAION数据集推出了Stable Diffusion，引领了生成式AI的浪潮，顺便还拐走了LAION组织的两个研究人员。

如今Stability AI正在寻求40亿美元（折合276亿元）估值，这主要归功于LAION提供的数据。

据彭博社消息，舒曼却并没有从LAION中获利，原因很简单：不感兴趣，希望保持这份工作的独立性。

因此他还婉拒了各类工作邀请，依旧选择在德国汉堡当一名普普通通的高中老师。

本人：数据集不应该被监控

即便如此，随着LAION知名度打响，他还是避免不了地卷入到各种纷扰之中。

目前，LAION已经发布了10项数据集，最具代表性的就是去年3月发布的LAION-5B，由58.5亿个图像文本组成，是当前最大的免费开源数据集。

作为LAION-400M的继任者，它收到了来自HuggingFace、Stability AI以及Doodlebot资助。

结果一发布就遭到了不小的争议，网友们纷纷质疑其数据未经整理，导致充斥大量的非法内容，对此LAION工程师Romain Beaumont回应：

非标注数据集是自我监督学习的基础，这是机器学习的未来。没有人工标注的图像/文本是一项功能，而非错误。

早在Imagen发布时，也专门针对LAION-400M做出警示：因为依赖于这种未经整理的网络数据，集成了大模型的社会偏见和限制，因此不适合公开使用。

据彭博社消息，为了打造LAION，舒曼团队从亚马逊网络服务、Shopify等公司获取视觉数据，还有包括YouTube缩略图、各类新闻网站上的内容。

对此舒曼表示，任何在网上免费提供的东西都是公平竞争，欧盟也没有人工智能法规。

更何况，也没有人知道OpenAI实际上用什么样的数据集训练AI的。

目前，LAION被迫卷入两场诉讼之中，一起是Stability AI与Midjourney等集体诉讼，被指使用艺术家的版权图片来训练他们的模型；

另一起是Getty Images起诉Stability AI，称其1200万张照片被LAION取走，并用来训练Stable Diffusion。

而舒曼将LAION比作大信息技术海啸之上一艘“小型研究船”，采取海下的样本向世界展示。

其实早在构建数据库时，他们就在运行一个自动化过滤工具，不过舒曼感兴趣的不是清理，而是从这些资产中学习。

我们本可以从公布的数据中过滤掉暴力，但我们决定不这样做，因为这将加快暴力检测软件的开发。

现在更多关于监管的建议在推动，各个科技大厂也在采取相应的措施，比如英伟达就开源了护栏工具，来防止大模型来胡说八道。

但在舒曼看来，数据集不应该被监控。这也正是当时创建LAION时候的初心。

他还警告，如果我们试图放慢速度、过度监管，就会有很大的危险，最终只有少数大公司能负担得起所有的正式要求。

前段时间，在LAION与全球志愿者的合力之下，他们完成了ChatGPT最大开源平替OpenAssistant的发布。

60万余条训练数据全部由人工生成，涵盖了广泛的话题和语言风格，一时间引发众人关注，HuggingFace也直接拿来用来构建它自己的聊天软件HuggingChat。

拿着德国铁饭碗

不可否认的是，他已经在用开源数据集，加剧了生成式AI的浪潮。

但在舒曼的个人网站上，看到的只是一位两个孩子的父亲，在德国当着终身制公务员，游走于中学校之间讲授物理和计算机科学。

舒曼拥有维也纳大学计算机科学与物理学学位。在学习这两个专业之前，他还学了心理学。（大概完成了50%的学士学位然后就转专业了）。

除此之外，他还在学习表演，制作了一部关于孩子学习的纪录片「Schools of Trust」。

参考链接：

[1]https://laion.ai/blog/laion-400-open-dataset/

[2]https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns

[3]http://christoph-schuhmann.de/

[4]https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/

[5]https://laion.ai/projects/

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply