文章主题:多模态, 谷歌, Gemini, 人工智能

666AI工具大全,助力做AI时代先行者!

多模态交互是实现真正人工智能的关键之一,而谷歌正在努力实现这一目标。据相关报道,谷歌正在开发一种新的多模态技术,该技术将包括触摸和触觉反馈。如果这一切都能成功实现,那么人类就迈出了通向通用人工智能的重要一步。此外,谷歌还推出了一种高效的多模态技术,可以在安卓设备上本地离线运行。这意味着,用户无需等待网络连接或外部设备支持,就可以直接在设备上体验这种新技术。对于Pixel 8 Pro的用户来说,他们现在就可以立即开始体验这种技术的优势了。多模态交互是未来人工智能的重要组成部分,而谷歌正在不断努力推动这一领域的发展。随着技术的进步,我们相信会有更多创新的出现,让我们的生活更加智能化和便捷化。

多模态,还是多模态。

在一次突然的“延迟发布”烟雾弹攻击之后,谷歌公司出乎意料地选择在深夜采取行动。他们于当地时间12月6日提前推出了自研大型语言模型Gemini——ChatGPT的主要竞争者。这一举动无疑让业界感到震惊,因为这是谷歌在人工智能领域的一次重要突破。

Gemini实际上是一个人工智能模型家族:“大杯”Gemini Ultra、“中杯”Gemini Pro、“小杯”Gemini Nano,都支持上下文32K理解。

Gemini三种版本的能力对比图

其中,Gemini Ultra主要是为数据中心和企业应用设计,以其强大的原生多模态性能,再次引发了大家对通用人工智能的想象。

原生多模态碾压ChatGPT

多模态从一开始就是谷歌大模型框架的一部分。

GPT-4是OpenAI目前最强大的人工智能工具之一,也是一款多模态模型。那么,它是如何实现这一目标的的呢?OpenAI并没有直接训练一个多模态模型,而是采取了另外一种方法。他们首先分别训练了纯文本、纯视觉和纯音频三个单一领域的模型,每个领域都拥有自己独特的输入和输出格式。这种方法使得这些模型可以独立地处理不同类型的数据,并且可以相互补充。一旦这三个模型都被训练完毕,OpenAI将这些模型拼接在一起,形成了一个完整的多模态模型。这个模型可以同时处理多种输入格式,例如文本、图像和声音等,从而实现了更为灵活和广泛的应用。这种方法的好处在于,它可以让不同的模型在不同的领域中表现出色,并且在需要时可以轻松地进行扩展和组合。此外,由于这些模型都是基于相同的基础架构训练出来的,因此它们可以共享许多相同的知识和特征,这也有助于提高整个系统的性能和效率。

谷歌自一开始就构建了一种“多感官”模型,该模型通过为其“供餐”多种模态的数据(如文字、音频、图像、视频以及PDF文件等)进行训练,从而实现优化。接着,研究人员利用额外的多模态数据对该模型进行了微调,以进一步提升其效能。

Gemini支持输入文本、图像、音频和视频,输出图像和文字

因此,谷歌将其处理多种类型信息的方式称为原生多模态(natively multimodal),这种能力使得谷歌能够“无缝”地理解、操作和组合这些信息,从而具备了卓越的交互性能。

为了证明自己的产品比OpenAI的ChatGPT更出色,谷歌甩出了数张成绩单。

Gemini Ultra是一款在多个领域表现出色的AI模型,其性能在某些方面甚至超过了人类专家。据谷歌方面的介绍,该模型在自然图像、音频和视频的理解能力上,以及在数学推理方面,都展现出了超越GPT-4的能力。在32个常见的学术基准中,Gemini Ultra在30个基准上都表现出了优势。此外,在MMLU(大规模多任务语言理解)测试中,Gemini Ultra更是以90.0%的高分,成为了首个超过人类专家的模型。

MMLU测试包括数学、物理、历史、法律、医学和伦理等57个学科,旨在考察世界知识和解决问题的能力。

多模态的意义——为人形机器人铺路 更贴近AGI

通用人工智能(AGI)是具备与人类同等智能、或超越人类的人工智能,实现通用人工智能是AI领域的终极目标。这样的AI可以实现自我学习、自我改进、自我调整,进而解决任何问题而不需要人为干预,拥有多模态能力是前提条件。

谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来,与世界进行物理交互。据Wired报道,DeepMind首席执行官、Gemini团队代表德米斯•哈萨比斯(Demis Hassabis)表示,真正的多模态需要包括触摸和触觉反馈,将这类多模态模型应用于机器人技术能催生很多可能性,“随着时间的推移,Gemini的多模态能力将提升,其将获得更多的感官,包括触觉,我们正在对此进行深入探索。”

这意味着,Gemini可以真正用人类的方式理解周围的世界,接收各种类型的数据,包括文字、代码、音频、图像、视频,并给出同样多样化的响应,包括操纵机械臂给出动作回应,人类离通用人工智能更近了一步。

用于端侧设备的最高效模型 可在安卓设备上本地离线运行

谷歌表示,Gemini还是他们迄今为止最灵活的模型,能够高效地运行在数据中心和移动设备等多类型平台上。

端侧运行任务交给了Gemini Nano。Gemini Nano是通过对其他模型蒸馏得来的4位模型,号称用于端侧设备最高效的模型,可以在安卓设备上本地离线运行,Pixel 8 Pro的用户马上就能体验到。Gemini Nano有两种型号,Nano-1(18亿参数)和Nano-2(32.5亿参数)——分别针对低内存和高内存设备。

Pixel 8 Pro在录音机应用中使用Gemini Nano来总结会议音频,即使没有网络连接也可以实现

谷歌表示,得益于Gemini Nano,AI可以在更多样的设备、平台上运行,每个人都可以贴近AI。

Gemini Nano目前仅适用于Pixel 8 Pro上的Android 14。

一些多模态应用实例

Gemini会结合语言询问,以及配图中的食材,手把手教你该怎么做菜:

Gemini特别擅长对数学和物理等复杂学科的问题进行推理。举个例子,一位老师给出了一个物理问题“计算滑雪者在斜坡底部的速度”,一位学生提出了一个解决方案来。利用Gemini的多模态推理能力,该模型能够识别手写内容、理解问题,将问题和解决方案都转换为数学公式,找出出学生在解决问题时出错的具体推理步骤,最后给出问题的正确解决方案。

Gemini展示的其他多模态(以下例子中,输入包括图片、图表、视频、文字)理解能力:

Gemini猜对了纸团在最左边的杯子里看图定位能力厘清人物关系图谱图像生成能力分析视频为球员提供建议理解网络梗图

何时可用?

目前,谷歌没有进行现场展示,也没有开发对外测试,实际效果依然要打一个问号。

从发布日起,Gemini可开始应用于Bard和Pixel 8 Pro智能手机,在接下来的几个月中,Gemini将陆续出现在谷歌更多的产品和服务中,包括搜索、广告、Chrome、Duet AI等等——

Bard将使用Gemini Pro的微调版本来执行更高级的推理、规划、理解等任务,这也是Bard自推出以来最大的升级,从12月13日开始,开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的 Gemini API访问Gemini Pro;

Pixel 8 Pro将是第一款运行Gemini Nano的智能手机,该手机于10月4日正式发布,是谷歌最新一代高端旗舰机。安卓开发人员可以通过AI Core使用Gemini Nano进行构建。Android AICore是Android 14中的一项新系统服务,可处理模型管理、运行时、安全功能等,简化用户将AI融入应用程序的工作。

而对于“王炸”版本Gemini Ultra,谷歌表示,其目前正处于信任和安全检查阶段,包括由受信任的外部方进行红队检查,并在广泛使用之前使用微调和基于人类反馈的强化学习(RLHF)进一步完善模型。在这个过程中,谷歌会先向部分客户、开发人员、合作伙伴以及安全和责任专家提供Gemini Ultra,供其进行早期实验和反馈,然后在明年初向开发人员和企业客户推出。

本文源自:科创板日报

举报/反馈

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *