谷歌Gemini大模型:多模态能力引领AI发展
谷歌研发的大模型Gemini,具有强大的多模态能力,包括输入文本、图像、音频和视频,并输出图像和文字。其基于多种模态数据的训练,可以实现对不同类型信息的无缝理解和操作。Gemini被认为是ChatGPT等竞争对手的有力挑战。Gemini三种版本的能力对比图中,Gemini Ultra在32个常用学术基准中表现优于GPT 4,并在MMLU测试中以90.0%的高分超越人类专家。Gemini还是谷歌迄今为止最灵活的模型,能高效地在数据中心和移动设备等多平台运行。Gemini Nano则是专为端侧设备设计的最高效模型,可在安卓设备上本地离线运行。

