谷歌Gemini大模型：多模态能力引领AI发展

文章主题：多模态, 谷歌, Gemini, 人工智能

多模态交互是实现真正人工智能的关键之一,而谷歌正在努力将其实现。据相关报道,谷歌正在开发一种新的多模态技术,该技术将包括触摸和触觉反馈。这种技术的出现让人类离通用人工智能又近了一步。此外,谷歌还将推出一个高效的多模态版本,可以在安卓设备上本地离线运行。这意味着用户可以在没有网络连接的情况下使用该技术,比如Pixel 8 Pro的用户,他们很快就能体验到这项新技术带来的便利。总的来说,谷歌的这一举措是人工智能领域的一项重要进展,对于未来的多模态交互技术有着重要的意义。

多模态，还是多模态。

在一次突然的“延迟发布”烟雾弹攻击之后，谷歌公司出乎意料地选择在深夜采取行动。他们于当地时间12月6日提前推出了自研大型语言模型Gemini——ChatGPT的主要竞争者。这一举动无疑让业界感到震惊，因为这是谷歌在人工智能领域的一次重要突破。

Gemini实际上是一个人工智能模型家族：“大杯”Gemini Ultra、“中杯”Gemini Pro、“小杯”Gemini Nano，都支持上下文32K理解。

Gemini三种版本的能力对比图

其中，Gemini Ultra主要是为数据中心和企业应用设计，以其强大的原生多模态性能，再次引发了大家对通用人工智能的想象。

▌原生多模态碾压ChatGPT

多模态从一开始就是谷歌大模型框架的一部分。

GPT-4是OpenAI目前最强大的人工智能模型之一,它被称为多模态模型。那么,它是如何实现的呢?并不是通过直接训练一个多模态模型来实现的。相反,OpenAI首先分别训练了专注于处理纯文本、纯视觉和纯音频的三个单模态模型。这些单模态模型经过深入的学习和训练,可以高效地理解和生成各种形式的信息,包括文本、图像和音频。然后,OpenAI将这些单独的单模态模型组合在一起,形成了一个多模态模型。这种方法使得GPT-4能够同时处理多种类型的输入,并能够以更高的准确性和效率进行各种任务,如语言理解、图像分类、语音识别等。因此,OpenAI采用了一种基于单一模态到多模态的方法来实现GPT-4的多模态能力。这种方法具有很多优点,例如可以提高模型的泛化能力和可扩展性,并且可以更好地适应各种应用场景。

谷歌自一开始就构建了一种“多感官”模型，该模型通过为其“供餐”多种模态的数据（如文字、音频、图像、视频以及PDF文件等）进行训练，从而使其得到优化。接着，研究人员又利用额外的多模态数据对该模型进行了微调，以进一步提升其效能。

Gemini支持输入文本、图像、音频和视频，输出图像和文字

因此，谷歌将其处理多种类型信息的方式称为原生多模态（natively multimodal），这种能力使得谷歌能够“无缝”地理解、操作和组合这些信息，从而具备了卓越的交互性能。

为了证明自己的产品比OpenAI的ChatGPT更出色，谷歌甩出了数张成绩单。

Gemini Ultra是一款卓越的人工智能助手，它在自然图像、音频和视频的理解能力上超越了谷歌的自然语言处理技术。据谷歌方面的介绍，Gemini Ultra在32个常见的学术基准中，有30个以上的表现优于GPT-4。此外，在MMLU（大规模多任务语言理解）测试中，Gemini Ultra取得了令人瞩目的90.0%的高分，这使得它成为了首个超过人类专家的模型。这一成果充分展示了Gemini Ultra强大的多模态理解和推理能力，以及其在人工智能领域的领先地位。

MMLU测试包括数学、物理、历史、法律、医学和伦理等57个学科，旨在考察世界知识和解决问题的能力。

▌多模态的意义——为人形机器人铺路更贴近AGI

通用人工智能（AGI）是一种具有与人类相当甚至超越人类的智能水平的人工智能系统。在AI领域，实现通用人工智能被视为最终目标。这样的AI能够进行自我学习、自我优化和自我调节，从而解决各种问题，无需人工干预。而拥有多元化的处理能力则是实现这一目标的基础。

谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来，与世界进行物理交互。据Wired报道，DeepMind首席执行官、Gemini团队代表德米斯•哈萨比斯（Demis Hassabis）表示，真正的多模态需要包括触摸和触觉反馈，将这类多模态模型应用于机器人技术能催生很多可能性，“随着时间的推移，Gemini的多模态能力将提升，其将获得更多的感官，包括触觉，我们正在对此进行深入探索。”

这意味着，Gemini可以真正用人类的方式理解周围的世界，接收各种类型的数据，包括文字、代码、音频、图像、视频，并给出同样多样化的响应，包括操纵机械臂给出动作回应，人类离通用人工智能更近了一步。

▌用于端侧设备的最高效模型可在安卓设备上本地离线运行

谷歌发布声明称，他们的 Gemini 模型仍然是他们迄今为止最灵活、最具适应性的模型，能够高效地在数据中心以及多种移动设备等不同平台上运行。

在完成端侧运行任务的处理过程中，我们选择了Gemini Nano这款优秀的模型。Gemini Nano是我们通过其他模型的蒸馏技术得到的四位模型，它被誉为在端侧设备上运行效率最高的模型。这意味着用户现在可以直接在安卓设备上本地离线运行该模型，无需等待。对于Pixel 8 Pro的用户来说，他们很快就能享受到Gemini Nano带来的便捷体验。值得一提的是，Gemini Nano有两个版本，分别是Nano-1（拥有180亿参数）和Nano-2（拥有32.5亿参数）——这两个版本专门针对低内存和高内存设备进行了优化。

Pixel 8 Pro在录音机应用中使用Gemini Nano来总结会议音频，即使没有网络连接也可以实现

谷歌表示，得益于Gemini Nano，AI可以在更多样的设备、平台上运行，每个人都可以贴近AI。

Gemini Nano目前仅适用于Pixel 8 Pro上的Android 14。

▌一些多模态应用实例

Gemini会结合语言询问，以及配图中的食材，手把手教你该怎么做菜：

Gemini特别擅长对数学和物理等复杂学科的问题进行推理。举个例子，一位老师给出了一个物理问题“计算滑雪者在斜坡底部的速度”，一位学生提出了一个解决方案来。利用Gemini的多模态推理能力，该模型能够识别手写内容、理解问题，将问题和解决方案都转换为数学公式，找出出学生在解决问题时出错的具体推理步骤，最后给出问题的正确解决方案。

Gemini展示的其他多模态（以下例子中，输入包括图片、图表、视频、文字）理解能力：

Gemini猜对了纸团在最左边的杯子里看图定位能力厘清人物关系图谱图像生成能力分析视频为球员提供建议理解网络梗图

▌何时可用？

目前，谷歌没有进行现场展示，也没有开发对外测试，实际效果依然要打一个问号。

从发布日起，Gemini可开始应用于Bard和Pixel 8 Pro智能手机，在接下来的几个月中，Gemini将陆续出现在谷歌更多的产品和服务中，包括搜索、广告、Chrome、Duet AI等等——

Bard将使用Gemini Pro的微调版本来执行更高级的推理、规划、理解等任务，这也是Bard自推出以来最大的升级，从12月13日开始，开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的 Gemini API访问Gemini Pro；

Pixel 8 Pro将是第一款运行Gemini Nano的智能手机，该手机于10月4日正式发布，是谷歌最新一代高端旗舰机。安卓开发人员可以通过AI Core使用Gemini Nano进行构建。Android AICore是Android 14中的一项新系统服务，可处理模型管理、运行时、安全功能等，简化用户将AI融入应用程序的工作。

而对于“王炸”版本Gemini Ultra，谷歌表示，其目前正处于信任和安全检查阶段，包括由受信任的外部方进行红队检查，并在广泛使用之前使用微调和基于人类反馈的强化学习(RLHF)进一步完善模型。在这个过程中，谷歌会先向部分客户、开发人员、合作伙伴以及安全和责任专家提供Gemini Ultra，供其进行早期实验和反馈，然后在明年初向开发人员和企业客户推出。

本文源自：科创板日报

举报/反馈

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply