谷歌PaLM-E:史上最大视觉语言模型,面对ChatGPT,它有何优势与挑战?
谷歌柏林工业大学团队发布了超大规模视觉语言模型PaLM-E,参数量高达5620亿,集语言与视觉控制于一身,是VLM而非LLM,对物理世界有感知。谷歌长期技术投资多领域成果显著,面对ChatGPT威胁,加快了“生成式人工智能”集成产品计划,并推出Switch Transformer、Multilingual Language Model和NLG等新模型以抢占优势。外界积极评价谷歌的技术实力,但也指出模型复杂度与隐私等问题需要解决。PaLM-E基于Transformer架构,尽管基础相同,但其改进如瓶颈层和语言模型增强目标显示出优势,被视为transformer AI的代表作。


