谷歌重拳出击:PaLM-E模型引领视觉语言模型新潮流
谷歌和柏林工业大学的团队推出了史上最大的视觉语言模型——PaLM-E,集成语言和视觉功能,用于机器人控制。与大语言模型(LLM)相比,它被称为视觉语言模型(VLM),并具有对物理世界的感知能力。谷歌一直在进行各项长远技术投资,在自然语言处理、机器学习、计算机视觉、自主驾驶、量子计算等多个领域取得重要成果,但最近OpenAI推出的ChatGPT使其感到紧张,因此谷歌加快了脚步,在几个月内将“生成式人工智能”技术集成到所有主要产品中。谷歌职员工和前员工表示,公司目前感到自己在关键优势领域落后,因此引发了内部的焦虑。谷歌已经推出了多种自然语言处理模型和引擎,如PaLM-E模型、Switch Transformer模型、Multilingual Language Model和Natural Language Generation引擎。这些新模型和引擎在自然语言处理领域取得了优异性能,但同时也面临模型复杂度高、计算资源需求大、数据隐私等问题。


