杨净:从普通高中教师到AI数据巨擘
AI与物理

杨净:从普通高中教师到AI数据巨擘

这篇文章讲述了普通高中教师舒曼如何创立了LAION数据集,该数据集成为了各种生成模型的重要资源,如谷歌Imagen、Parti和Stable Diffusion。在创建过程中,舒曼和他的团队通过抓取网络上的随机HTML代码来定位图像,并将这些图像与描述性文本联系起来。在2021年新年之际,OpenAI推出了DALL-E,GPT-3首次成功实现了跨界,只需对着它说上一段话,就能生成对应图片。然而,舒曼对数据私有化产生了担忧,他担心如果所有数据都集中在少数几家公司,对社会会产生不良影响。因此,他和他的团队开始尝试复制OpenAI的数据集。最终,他们在Discord上收集了数百万个图像-文本对,并在2021年8月首次发布了LAION-400M数据集。如今,LAION已经成为生成式AI的重要资源,被用于各种研究和实验。
中国AI大模型:ChatGPT现象背后的挑战与机遇
AI与物理

中国AI大模型:ChatGPT现象背后的挑战与机遇

文章主要讨论了中国距离自己的ChatGPT还有多远,以及如何实现中国的ChatGPT。文章指出,中国的数字经济规模庞大,新的商业模式和应用场景层出不穷,但是底层技术能力的欠缺会限制产业数字化的发展空间。此外,中国的科技企业更多地注重实际场景运用,而缺乏对底层技术的研究和突破。因此,中国的优势在于拥有大规模的应用市场和海量的数据,但这并不意味着中国可以很快地拥有自己的ChatGPT。文章最后提出了几种可能的解决方案,包括加强底层技术的研发,推动产研协同创新模式,以及建设新型基础设施等。