杨净:从普通高中教师到AI数据巨擘
这篇文章讲述了普通高中教师舒曼如何创立了LAION数据集,该数据集成为了各种生成模型的重要资源,如谷歌Imagen、Parti和Stable Diffusion。在创建过程中,舒曼和他的团队通过抓取网络上的随机HTML代码来定位图像,并将这些图像与描述性文本联系起来。在2021年新年之际,OpenAI推出了DALL-E,GPT-3首次成功实现了跨界,只需对着它说上一段话,就能生成对应图片。然而,舒曼对数据私有化产生了担忧,他担心如果所有数据都集中在少数几家公司,对社会会产生不良影响。因此,他和他的团队开始尝试复制OpenAI的数据集。最终,他们在Discord上收集了数百万个图像-文本对,并在2021年8月首次发布了LAION-400M数据集。如今,LAION已经成为生成式AI的重要资源,被用于各种研究和实验。



