多模态交互：AIeyesontheworld

文章主题：多模态, AI, Gemini, GPT-5

这是一个比ChatGPT有趣更多的新家伙。先来看看他们的演示（不是聊天框，而是实时的视频和语音互动）：

一张纸、一条弯曲的线、看到喙和爪子觉得是鸟，有了水波纹立刻就认出了鸭子（当然，你要非抬杠说是大鹅，也行……）。整个过程就像那个著名的超人梗“Its a Bird… Its a Plane… Its Superman”——简直和人分辨视觉信息的感觉一模一样。

接下来它看出了颜色，而且清楚地知道“蓝鸭子”这玩意可不多见；当画面中沧桑的双手拿出了一个“小蓝鸭”，它也认出了材质，并知道这个“蓝鸭”可以浮在水上——而这是通过挤捏的动作确认的。

它非常清楚，这是一个立体的鸭子放在平面的世界地图上（它还知道蓝色是的海洋，黄绿色的是大陆）。

最有趣的是这部分：三个杯中扣纸团，猜猜是哪个？（后面还有一个猜手中硬币的环节，啥都瞒不过）

它可以识别手势，无论你是在猜拳，还是模仿动物。

还可以识别视频中不断变换的物体，并归类说明。

甚至可以做编织刺绣爱好者的“设计指导”。

还记得这个么？小时候我最爱玩了，一下子被它整得没乐趣了！

可以看懂手绘乐器和与之关联的背景（难为它了，画得的确太糙了……），并随之变换不同音乐风格（后面的完整视频中，你可以听到）。

还能够看懂视频中的视频。

它眼中的世界也许跟你一样

上面演示的，是Google刚刚发布的Gemini（本意为双子座，就是上面演示视频最后出现的那个星座）大模型——这是一款“天生多模态”的AI大模型。

官方称其为“Google 迄今为止规模最大、能力最强以及最灵活的AI模型”。

在过去的一年中，您可能会多次听到“多模态”这个词汇，它涉及到多种交流方式，如文字、语音和图像等。简单来说，如果人工智能与您的互动形式包含了这些不同的媒介，那么就称之为“多模态”。相反，如果只采用一种交流方式，那就是“单模态”。

但这里有一个问题，我们在这一年接触到的大多数“多模态”，其实都是单一模态的不停切换：先在对话框里聊两句天，再来个语音识别转文字，最后整一张画给AI看，或者让AI整一张画给你看——是不是很熟悉的流程？

举个例子，你身边是不是有很多这样的同事：一下午只能做一件任务，剪了视频就不能做表格；做了表格就没法找客户；找了客户就没法剪视频……（除非是摸鱼，一次能摸好几种）这时候你老板通常会表扬他：倒霉孩子，真是一根筋！

但如果优秀如你，也许可以并行同时完成两到三项工作——Gemini就是AI中的你。在上面的演示视频中就可看出，既然号称“天生多模态”，它展现出的其实是一种“跨模态”的“天赋”。文字、语言、画面、声音……做到同时接受和表达，这就非常接近人类天然对于外部世界的理解和交互方式了。

不光是GPT，各种“专家”这回也悬了

Gemini这次公布了三种尺寸：

Gemini Ultra：规模最大且功能最强大的模型，适用于高度复杂的任务；

Gemini Pro：适用于各种任务的最佳模型；

Gemini Nano：端侧设备上最高效的模型。

以保障它能高效运行在从数据中心到移动设备的多平台上。

在这次的发布和展示中，Google公布了Gemini最具先进性的几个特质：

遥遥领先（不信你看今天媒体的说法，都是“完爆/暴打GPT”）

从自然图像、音频和视频理解到数学推理，在被大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。

首次超越人类（这回是真的……）

Gemini Ultra 的得分率为 90.0%，是第一个在 MMLU（大规模多任务语言理解）测试中超过人类专家的模型，MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试世界知识和解决问题的能力。

真的认识字啦！

在图像基准测试中，Gemini Ultra 在不使用对象字符识别（OCR）系统来提取图像中的文本进行下一步处理的情况下，表现优于以前最好的模型。

目前，在 Bard 已经可以体验 Gemini 的 Pro 版本（暂时限英语），未来几个月将扩展不同的模态，并支持新的语言和地区；手机端，Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机，它可以支持录音应用中的“总结”等新功能，并在 Gboard 中推出“智能回复”功能；未来几个月，Gemini 也将出现在Google的搜索、广告、浏览器和智能办公助手当中。

大妈不是大妈，大爷还是大爷

大概是过去一年OpenAI占据的太多眼球（无论是技术、产品，还是人），有趣的是，这似乎暗合了Google当年推出Transformer架构时的论文题目Attention is all you need。一年之中，凡谈及AI，则言必称OpenAI和GPT，很多人似乎忘记了Google在AI方面雄厚的基础和持续进步。

看看这张Gemini之前Google的AI里程图：

在当前的科技环境中，我们正处在一个激动人心的时刻。近期，OpenAI所面临的挑战可谓接踵而至。那么，在这个背景下，OpenAI将如何应对这种局面呢？是否会出现传说中的Q*模型，或者人们期待已久的GPT-5模型？这些问题都让人充满好奇与期待。

本文来自微信公众号：果壳（ID：Guokr42），作者：卧虫，编辑：malt

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

Leave a Reply Cancel reply