文章主题:图像生成器, 聊天机器人, 人工智能技术, DALL·E
OpenAI近日向少数测试人员推出了其图像生成器DALL·E的最新版,并将其整合进了聊天机器人ChatGPT之中。值得注意的是,DALL·E 3本身就是基于ChatGPT构建的。
DALL·E 3在卓越的语言对齐能力方面,依赖于扎实的文本GPT技术作为其根基。事实上,MidJourney并没有过于强大的推理思维,这也是为何它需要依赖众多的提示词。”首先,我们需要考虑的是’大脑’,然后才是像素——这是我们构建强大多模态人工智能的关键步骤。”
不用苦思冥想提示词,通过跟ChatGPT对话就可生成图像,进一步反馈还可修改细节。
当前最强大的人工智能图像生成产品之一DALL·E,迎来了一次具有里程碑意义的重大更新。
在9月20日,OpenAI——一家专注于人工智能开发的公司,向少数测试人员推出了其最新的图像生成器DALL·E的升级版,并将其整合到了聊天机器人ChatGPT之中。值得注意的是,DALL·E 3实际上是建立在ChatGPT的基础之上的。据OpenAI官方网站的消息,DALL·E 3预计将在10月初面向ChatGPT Plus(每月20美元的费用)以及企业客户开放。
在满月的光辉照耀下,城市的街道熙熙攘攘,人们沉浸在繁华的夜晚生活中。街头巷尾的小摊位上,一位头戴火红头发,身着标志性的天鹅绒斗篷的年轻女子正在与一个性格暴躁的小贩展开讨价还价的较量。这位小贩高大威猛,经验丰富,身穿一套整洁的西装,胡须引人注目。他手中这部蒸汽朋克式的电话,使得交流更加兴奋有趣。这就是DALL·E 3为我们呈现的画面,生动而富有生活气息。
DALL·E,一个源于艺术大师萨尔瓦多·达利(Salvador Dalí)与电影《机器人总动员》(WALL-E)中的主角名字的创意人工智能技术,自2021年1月首次亮相以来,历经两次升级改进,于2022年4月推出了的第二版正式与大家见面。
先前,OpenAI曾推出过将ChatGPT与其他在线服务整合的方法,如Expedia的酒店机票预订服务和OpenTable的餐厅预订服务,以及维基百科Wikipedia。然而,这次他们将其最卓越的语言模型和最先进的人工智能模型相结合,这不仅极大地降低了提示词的专业难度,而且更好地展现了语言的微妙之处。
特别擅长生成人类手部图像
在这幅画面中,一个牛油果仿佛坐在一张治疗师的椅子上,向其倾述着内心的空虚感受。治疗师则像一把敏锐的勺子,迅速地记录下了患者的需求和情况。这个场景仿佛是DALL·E 3的一个生动示例,展示了人工智能在医疗领域的应用 potential。
山姆·奥特曼,OpenAI的首席执行官,曾在X(其前身推特)平台上发布了两幅引人深思的图片。一幅是“牛油果寻求医疗帮助”,画面中,一个牛油果坐在治疗师的椅子上,表示“我感到内心空虚”,而周围有一个拳头大小的果核。治疗师则像一把勺子一样,正在飞快地记下笔记。
在该篇帖子中,热心的网友在DALL·E 2上尝试了相同的关键词。然而,从他们的尝试结果来看,治疗师的椅子似乎难以辨认,坑洞也未能明确呈现,而治疗师本身更是难以找到。
“牛油果看医生”。图片来源:DALL·E 2
“牛油果看医生”。图片来源:DALL·E 2
在官网上,OpenAI也贴心地给出了一组DALL·E 2(左)和DALL·E 3(右)的对比图,提示词为“一幅富有表现力的油画,描绘了一名扣篮的篮球运动员,呈现出星云的爆炸”。
图片来源:OpenAI官网
再对比最初版本的DALL·E,则可看出在这一两年的时间,OpenAI走了多远。以下是第一版DALL·E根据文字“牛油果型的扶手椅”自动创作的部分图像。
根据文字“牛油果型的扶手椅”生成图像。图片来源:DALL·E
据OpenAI介绍,DALL·E 3的版本比先前的版本能够生成更具说服力的图像,它特别擅长生成包含字母、数字和人类手部的图像,而人类手部的图像生成一直是这一领域的一个技术难点。
提示词:一名亚洲血统的中年女性,她的黑发上夹杂着银色条纹,看上去已经断裂、破碎、错综复杂地镶嵌在一片碎瓷片海洋中。瓷器上闪烁着泼彩图案,有光泽的和哑光的蓝色、绿色、橙色和红色和谐地融合,以超现实的动静结合的方式捕捉到了她的舞蹈。她的肤色像瓷器一样浅,给她的身材增添了一种近乎神秘的品质。图片来源:DALL·E 3
据介绍,DALL·E 3的巨大飞跃主要体现在两大方面。第一,只需要提示词,ChatGPT可自动对词语进行拓展,极大地弱化了提示工程的约束,生成图画细节更多、描述更精准;第二,因为ChatGPT原生,模型在理解用户指令及将文本转化为图片的能力增加了。OpenAI表示,DALL·E 3比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。
英伟达高级人工智能科学家范吉姆(Jim Fan)在X上表示,我认为DALL·E 3不仅仅是应对MidJourney的竞争。实际上,它是对即将到来的大规模多模态语言模型之间的史诗级对抗,以及与DeepMind的Gemini之间竞争的预演。Gemini是谷歌在2023年7月推出的大语言模型的集合,它支持多种功能,包括聊天机器人、生成原始文本、根据用户的要求收集文本等。
自从去年ChatGPT走红以来,硅谷科技巨头之间已经展开了一场争夺领先位置的人工智能竞赛。谷歌在最近发布了聊天机器人Bard的新版本,将其与谷歌最受欢迎的几项服务如Gmail、YouTube和Docs连接起来。Midjourney和Stable Diffusion等其他图像生成器也在今年夏天更新了模型。
范吉姆认为,“DALL·E 3是在ChatGPT的基础上本地构建的”,是OpenAI关于DALL·E 3的介绍中非常关键的一句话。DALL·E 3的卓越语言对齐能力是建立在坚实的文本GPT基础之上的,MidJourney实际上没有太多的推理大脑,这就是为什么需要大量的提示词。“首先是‘大脑’,其次才是像素——这是构建强大多模态人工智能的方式。”范吉姆写道。
图像生成技术引发安全担忧
“最新版本的DALL·E可以根据多段描述生成图像,并且可以详细遵循分钟级别的指示。”OpenAI研究员加布里埃尔·吴(Gabriel Goh)说。但他也表示,与所有图像生成器和其他人工智能系统一样,它也容易出错。
专家警告称,图像生成技术可以用于在网络上传播大量虚假信息。为了防范DALL·E 3出现这种情况,OpenAI已经整合了旨在防止问题图像的工具,其还试图限制DALL·E模仿特定艺术家风格的能力。
最近几个月以来,人工智能已被用作视觉虚假信息的来源。5月,一张关于五角大楼爆炸的虚假图片引发了股市的短暂下跌,这只是其中一个例子。
一张关于五角大楼爆炸的AI生成虚假图片。
《纽约时报》报道称,专家还担心,在重大选举期间,这项技术可能被用于恶意目的。专注于安全和政策的OpenAI研究员桑迪尼·阿加瓦尔(Sandhini Agarwal)表示,DALL·E 3倾向于生成风格化而非真实感的图像,但该模型也可以被激发生成像真实图片的场景,例如安保摄像机拍摄的颗粒状图像类型。
在大多数情况下,OpenAI并不打算阻止DALL·E 3 生成潜在可能产生问题的内容。阿加瓦尔表示,这种方法“过于宽泛”,因为图像可能是无害的,也可能是危险的,具体取决于它们出现的上下文。她说,这种方法“完全取决于它的使用方式,以及人们如何谈论它”。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!