AI数据的民主化:一位高中教师如何创造世界最大免费开源数据集
这篇文章讲述了德国高中教师舒曼如何创立了LAION数据集,该数据集成为了各种生成式AI模型的重要来源,如谷歌Imagen、Parti和Stable Diffusion。两年前,舒曼创立了LAION,如今被用于各种生成模型。他创建了一个包含4.13亿图像-文本对的数据集,这个数据集是通过在网络上抓取随机HTML代码来定位图像,并将这些图像与描述性文本联系起来,最后还需根据一定规则来过滤掉不适合的样本。在OpenAI推出DALL-E之前,舒曼已经开始关注数据私有化的问题,担心将数据集中在少数公司对社会产生不好影响。


