文章主题:苹果, AI大模型, MGIE, 开源

666AI工具大全,助力做AI时代先行者!

苹果推出开源AI大模型MGIE,能根据自然语言指令进行多种图像编辑

近日,苹果公司发布了一款具有创新意义的人工智能模型MGIE,它能够利用多模态大语言模型(multimodal large language models,简称MLLM)来解析用户的指令,并应对各种编辑场景中像素级的操作,涵盖了诸如全局照片优化、本地编辑以及Photoshop风格修改等多种需求。

图丨把小屋变成豪宅(来源:MGIE)

据报道,这一模型是由苹果公司与美国加利福尼亚大学圣芭芭拉分校的研究团队共同开发的。他们合作研究的成果以题为《基于多模态大语言模型指导的图像编辑指令》(Instruction-based Image Editing Guided by Multimodal Large Language Models)的论文形式,发表在了arXiv平台上[1]。

图丨相关论文(来源:arXiv)

在本研究中,作者团队由来自加利福尼亚大学圣芭芭拉分校的研究助理Tsu-Jui Fu、博士后Wenze Hu以及William Yang Wang教授组成,同时还有苹果机器学习研究员Xianzhi Du、Yinfei Yang和Zhe Gan共同贡献。

如前所述,MGIE 具备全面的图像编辑能力,涵盖了照片整体优化、本地编辑、Photoshop 风格调整以及基于指令的编辑等功能。

具体来说:

其一,能够从根本上提高目标图像的质量(清晰度、亮度等),并且可以加入绘画、卡通等艺术效果。

在原图的基础上,本文作者进一步阐述了一种图像处理技术,该技术具备双重特性:一是能针对目标图像中的特定区域或对象(如服饰、人脸、眼睛等)实施精细的调整;二是能对這些區域或對象的屬性進行更改,包括顏色、樣式、大小等方面的变化。通過這種技術,用戶可以根據需求對圖像進行多種方式的修飾,使最終效果更加符合期望。

在第三部分中,该软件具备广泛的Photoshop风格编辑功能,涵盖剪裁、旋转等基础操作,同时还能进行更进阶的编辑,如更改背景、添加或删除对象,以及混合对象等复杂操作。

其四,能够基于 MLLM 生成简明易懂的指令,以有效指导模型进行编辑,从而全面提高用户体验。

对于用户而言,由于该模型的设计非常易用、灵活定制,因此用户只需要提供自然语言指令,就能够实现对图像的编辑。

在此基础上,用户也可以向该模型提供反馈,以更好地完善编辑。此外,该模型还能够与需要图像编辑功能的其他应用程序或平台集成。

那么,具体到实际场景,用户又是如何使用 MGIE 的呢?

面对下图中的左图所显示的披萨,用户可以对 MGIE 输入“让它看起来更健康”的指令,后者便会使用常识推理,给披萨添加西红柿、香草等蔬菜配料。

(来源:arXiv)

而面对下图中的左图所显示的多余的女性人物主体,用户可以通过 Photoshop 风格的修改,要求该模型将人物从照片背景中移除,并将图像焦点转移到男性人物的面部表情上。

(来源:arXiv)

在掌握使用 MGIE 的方法之后,我们不可避免地会好奇该模型背后的运作逻辑。

据了解,它主要基于 MLLM 的理念,后者作为性能强大的人工智能模型,在跨模态理解和视觉感知响应生成方面表现优异,但尚未广泛地在图像编辑任务中获得应用。

MGIE 则通过以下两种方式,成功地将 MLLM 集成到图像编辑的过程中。

第一步,利用 MLLM 从用户输入的指令中总结出尽可能简单的说明,以更好地指导接下来的图像编辑。比如,如果用户的给定输入是“让草地更绿”,那么,接下来该模型就会生成“将草地区域的饱和度增加 20%”的指令。

第二步,利用 MLLM 提高模型对图像的想象力,这有利于触达编辑的根本,以便完成对目标图像操作的指导。

总的来说,该模型采用了一种全新的端到端的训练方案,可以实现对指令推导、视觉想象和图像编辑模块的联合优化。

据悉,目前 MGIE 已经在 GitHub 上线,相应的数据代码和预训练模型均已实现开源。不仅如此,还在机器学习项目共享与合作平台 Hugging Face Spaces 上发表了一个演示,方便用户在线试用。

综上可以看出,MGIE 不但是一项基础研究成果,更是在各种图像场景下都能适用的实用工具。

也就是说,它不仅可以帮助用户基于个人或专业目的进行图像创建、修改和优化,还能让用户通过图像表达自己的想法和情感,进而激发他们的创造力。

正如该论文中提到的那样,“MGIE 不是简单但模糊的指导,而是得出明确的视觉感知意图,并生成合理的图像编辑。我们从各个编辑方面出发进行了广泛的研究,并证明 MGIE 能够在保持竞争效率的同时有效提高性能。我们还相信,由 MLLM 引导的框架,可以为未来的视觉和语言研究做出贡献”。

基于此,可以预见的是,这种多模态的人工智能系统,在不远的未来有望成为人们不可或缺的创意伙伴。

参考资料:

1.T., Fu, W., Hu, X., Du. et al. Guiding Instruction-based Image Editing via Multimodal Large Language Models.arXiv:2309.17102v2(2024).https://arxiv.org/abs/2309.17102

https://venturebeat.com/ai/apple-releases-mgie-a-revolutionary-ai-model-for-instruction-based-image-editing/

https://www.macrumors.com/2024/02/07/apple-ai-model-edits-images-natural-language/

https://www.theverge.com/2024/2/7/24065125/apple-generative-ai-image-editing-mgie-open-source-model

https://github.com/apple/ml-mgie

排版:刘雅坤返回搜狐,查看更多

责任编辑:

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *