文章标签:图像生成器, 聊天机器人, 人工智能技术, DALL·E
OpenAI近日向少数测试人员推出了其图像生成器DALL·E的最新版,并将其整合进了聊天机器人ChatGPT之中。值得注意的是,DALL·E 3本身就是基于ChatGPT构建的。
DALL·E 3在卓越的语言对齐能力方面,依赖于扎实的文本GPT技术作为其根基。事实上,MidJourney并没有过于强大的推理能力,这也是为何它需要依赖众多的提示词。”首先,我们需要考虑的是’大脑’,然后才是像素——这是我们构建强大多模态人工智能的关键步骤。”
不用苦思冥想提示词,通过跟ChatGPT对话就可生成图像,进一步反馈还可修改细节。
当前最强大的人工智能图像生成产品之一DALL·E,迎来了一次具有里程碑意义的重大更新。
在9月20日,OpenAI——一家专注于人工智能开发的公司,向少数测试人员推出了其图像生成器DALL·E的最新版本,并将其整合到了聊天机器人ChatGPT之中。事实上,DALL·E 3本身就是基于ChatGPT构建的。据OpenAI官方网站的消息,DALL·E 3将于10月初面向ChatGPT Plus(每月20美元的费用)以及企业客户开放。
在满月的光辉照耀下,城市的街道熙熙攘攘,人们沉浸在繁华的夜晚生活中。街头巷尾的小摊位上,一位头戴火红头发,身着标志性的天鹅绒斗篷的年轻女子正在与一个性格暴躁的小贩展开讨价还价的较量。这位小贩身材高大,经验丰富,身穿一套整洁的西装,留着显眼的胡须。他手中这部蒸汽朋克式的电话,使得交流更加生动有趣。这就是DALL·E 3为我们呈现的画面,生动而富有生活气息。
DALL·E,一个源于艺术大师萨尔瓦多·达利(Salvador Dalí)与电影《机器人总动员》(WALL-E)中的主角名字的创意人工智能技术,自2021年1月首次亮相以来,历经两次升级改进,于2022年4月推出了全新的版本。
此前,OpenAI曾推出一种将ChatGPT与其旗下各项在线服务相连接的方法,涵盖了诸如酒店机票预订平台Expedia、餐厅预订平台OpenTable以及知识型网站维基百科Wikipedia等。然而,这种将公司最先进的语言模型和最先进的人文知识图模型融合在一起的方式,是前所未有的。这不仅极大地降低了对于提示词的专业技能要求,同时也展示了语言细节的丰富性。
特别擅长生成人类手部图像
在这幅画面中,一个牛油果仿佛坐在一张治疗师的椅子上,向其倾述着内心的空虚感。它的内心深处藏着一个巨大的果核,就像是一个无底黑洞,等待着被探索和理解。治疗师则像是一支敏锐的勺子,正在认真地记录着牛油果的每一个症状和感受,以便更好地帮助它找到解决问题的方法。这幅画面来自DALL·E 3,展示了人工智能技术的强大和应用的广泛性。
山姆·奥特曼,OpenAI的首席执行官,曾在X(其前身推特)平台上发布了两幅引人深思的图片。一幅是“牛油果寻求医疗帮助”,其中心是一个大小适中的果核,一个牛油果坐在治疗师的椅子上,用一种略带忧伤的口吻表示:“我感到内心空虚”。治疗师则像一把勺子一样,匆忙地记录着。这两幅图片以其独特的视角和寓意,引发了人们对人工智能与人类关系的深入思考。
在这条帖子下,有热心网友在DALL·E 2上尝试了同样的提示词。可以发现其基本看不出治疗师的椅子,坑洞也没有清晰展现,治疗师更是没有。
“牛油果看医生”。图片来源:DALL·E 2
“牛油果看医生”。图片来源:DALL·E 2
在官网上,OpenAI也贴心地给出了一组DALL·E 2(左)和DALL·E 3(右)的对比图,提示词为“一幅富有表现力的油画,描绘了一名扣篮的篮球运动员,呈现出星云的爆炸”。
图片来源:OpenAI官网
再对比最初版本的DALL·E,则可看出在这一两年的时间,OpenAI走了多远。以下是第一版DALL·E根据文字“牛油果型的扶手椅”自动创作的部分图像。
根据文字“牛油果型的扶手椅”生成图像。图片来源:DALL·E
据OpenAI介绍,DALL·E 3的版本比先前的版本能够生成更具说服力的图像,它特别擅长生成包含字母、数字和人类手部的图像,而人类手部的图像生成一直是这一领域的一个技术难点。
提示词:一名亚洲血统的中年女性,她的黑发上夹杂着银色条纹,看上去已经断裂、破碎、错综复杂地镶嵌在一片碎瓷片海洋中。瓷器上闪烁着泼彩图案,有光泽的和哑光的蓝色、绿色、橙色和红色和谐地融合,以超现实的动静结合的方式捕捉到了她的舞蹈。她的肤色像瓷器一样浅,给她的身材增添了一种近乎神秘的品质。图片来源:DALL·E 3
据介绍,DALL·E 3的巨大飞跃主要体现在两大方面。第一,只需要提示词,ChatGPT可自动对词语进行拓展,极大地弱化了提示工程的约束,生成图画细节更多、描述更精准;第二,因为ChatGPT原生,模型在理解用户指令及将文本转化为图片的能力增加了。OpenAI表示,DALL·E 3比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。
英伟达高级人工智能科学家范吉姆(Jim Fan)在X上表示,我认为DALL·E 3不仅仅是应对MidJourney的竞争。实际上,它是对即将到来的大规模多模态语言模型之间的史诗级对抗,以及与DeepMind的Gemini之间竞争的预演。Gemini是谷歌在2023年7月推出的大语言模型的集合,它支持多种功能,包括聊天机器人、生成原始文本、根据用户的要求收集文本等。
自从去年ChatGPT走红以来,硅谷科技巨头之间已经展开了一场争夺领先位置的人工智能竞赛。谷歌在最近发布了聊天机器人Bard的新版本,将其与谷歌最受欢迎的几项服务如Gmail、YouTube和Docs连接起来。Midjourney和Stable Diffusion等其他图像生成器也在今年夏天更新了模型。
范吉姆认为,“DALL·E 3是在ChatGPT的基础上本地构建的”,是OpenAI关于DALL·E 3的介绍中非常关键的一句话。DALL·E 3的卓越语言对齐能力是建立在坚实的文本GPT基础之上的,MidJourney实际上没有太多的推理大脑,这就是为什么需要大量的提示词。“首先是‘大脑’,其次才是像素——这是构建强大多模态人工智能的方式。”范吉姆写道。
图像生成技术引发安全担忧
“最新版本的DALL·E可以根据多段描述生成图像,并且可以详细遵循分钟级别的指示。”OpenAI研究员加布里埃尔·吴(Gabriel Goh)说。但他也表示,与所有图像生成器和其他人工智能系统一样,它也容易出错。
专家警告称,图像生成技术可以用于在网络上传播大量虚假信息。为了防范DALL·E 3出现这种情况,OpenAI已经整合了旨在防止问题图像的工具,其还试图限制DALL·E模仿特定艺术家风格的能力。
最近几个月以来,人工智能已被用作视觉虚假信息的来源。5月,一张关于五角大楼爆炸的虚假图片引发了股市的短暂下跌,这只是其中一个例子。
一张关于五角大楼爆炸的AI生成虚假图片。
《纽约时报》报道称,专家还担心,在重大选举期间,这项技术可能被用于恶意目的。专注于安全和政策的OpenAI研究员桑迪尼·阿加瓦尔(Sandhini Agarwal)表示,DALL·E 3倾向于生成风格化而非真实感的图像,但该模型也可以被激发生成像真实图片的场景,例如安保摄像机拍摄的颗粒状图像类型。
在大多数情况下,OpenAI并不打算阻止DALL·E 3 生成潜在可能产生问题的内容。阿加瓦尔表示,这种方法“过于宽泛”,因为图像可能是无害的,也可能是危险的,具体取决于它们出现的上下文。她说,这种方法“完全取决于它的使用方式,以及人们如何谈论它”。
图像生成器, 聊天机器人, 人工智能技术, DALL·E