计算机行业证券研究报告:GPT系列
《计算机行业证券研究报告:GPT系列》由会员分享,可在线阅读,更多相关《计算机行业证券研究报告:GPT系列(18页珍藏版)》请在启牛文库网上搜索。
1、免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1证券研究报告 计算机 GPT 系列:具身化多模态 PaLM-E 华泰研究 计算机 增持(维持)研究员谢春生SAC No.S0570519080006SFC No.BQZ+(86)21 2987 2036联系人袁泽世,PhDSAC No.S+(86)21 2897 2228 行业走势图 资料来源:Wind,华泰研究 2023 年 3 月 14 日中国内地 专题研究 PaLM-E:具身化的多模态大语言模型PaLM-E 是由谷歌于 3 月 6 日提出的最新大语言模型,其特点在于引入具身化和多模态概念。具身化指的是在机器学习中涉及物理实体,
2、对应 PaLM-E指导现实的机器人完成相应任务;多模态指的是 PaLM-E 在模型输入中嵌入了文本、图像、具身数据等信息。PaLM-E 的核心思想在于,通过将多模态信息编码为与语言相似的形式,嵌入已有的 PaLM 模型,实现多模态的联合训练。其中,规模最大的 PaLM-E 参数达 5620 亿,是目前最大的视觉语言模型。从训练结果看,PaLM-E 具有很强的泛化和迁移能力,不仅能完成机器人具身推理任务,还能完成常规的视觉语言任务和通用语言任务。PaLM-E 解决了机器学习的 grounding 问题机器学习的 grounding 问题,指的是如何将抽象的符号或概念与真实世界的物体或事件联系起来
3、的问题。例如,让机器学习模型将“苹果”这个词与“具有形状、颜色、味道等属性的水果”相关联。已有的很多模型是基于文本数据训练,没能与真实世界的视觉和物理传感器模态建立良好联系,且多模态输入尚未普及,限制了模型在现实世界中的推理能力。PaLM-E 通过将图像、文字、具身数据联合训练,并引入多模态输入,增强了模型对现实中对象的理解,实现了机器人处理具身推理任务,较好解决了 grounding 问题。编码器是实现多模态输入的关键对应不同类别的多模态,需要分别设计不同类型的编码器进行编码。根据多模态的种类,PaLM-E 涉及的编码器主要包括:1)状态估计向量,实现物体位置、尺寸和颜色等状态信息编码;2)
4、ViT:实现 2D 图像编码;3)对象为中心的表示:实现对视觉输入中各对象的编码;4)OSRT:实现对 3D场景的编码;5)实体引用:实现对难以用自然语言表述的对象的指代。完成编码后,即可注入已有模型进行训练和下游任务执行。PaLM-E 以“在环路”的方式指导现实机器人完成具身任务PaLM-E 训练数据集包含数十个子训练集,涉及视觉、语言和具身数据。由于以往的 LLM 在具身研究和相应数据集积累上较少,因此训练集中的具身数据占比仅 8.9%。在实际执行任务时,PaLM-E 以“在环路”的方式,一步一步指导机器人操作,并根据机器人的反馈调节输出指令。在任务与运动规划、桌面环境操作和移动操作等具身
5、任务中,PaLM-E 能在部分仿真任务上取得优于 SOTA 的结果,并成功指导现实中机器人完成长期任务。PaLM-E 同样在视觉/语言任务上取得较好效果虽然完成机器人具身任务是 PaLM-E 模型研究的重点,但是经过文本、图像和具身混合数据集联合训练后,PaLM-E 同时获得了良好的通用视觉语言任务处理能力,甚至在某些测试集中取得了优于微调模型的结果。但是,在自然语言生成等通用语言任务上,多模态训练使得小参数规模的 PaLM-E 存在灾难性遗忘问题,PaLM-E-12B 相比其原版 PaLM-8B 的自然语言生成性能下降 87.3%。不过,可以通过增加模型参数量实现性能改善。当模型参数增大到
6、PaLM-E-562B 时,性能仅下降 3.9%。风险提示:宏观经济波动,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。(24)(14)(3)818Mar-22Jul-22Nov-22Mar-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2计算机 正文目录PaLM-E:具身化的多模态大语言模型.3 现有模型:不能很好解决 grounding 问题.4 将多模态输入 LLM 的关键:设计编码器.5 状态估计向量:描述物体状态.5 ViTs:解决 2D 图像编码.5 对象为中心的表示:将视觉输入分离成对象.5 OSRT:提供 3D 场景表
7、示.5 实体引用:直接指定引用对象.5 PaLM-E:模型设置+训练集选择+实验结果.6 模型构建:构建了从小到大多种尺寸的 PaLM-E.6 训练数据集:多种数据的混合.6 实验设置:多种环境下进行任务设计.7 实验结果:迁移特性良好,能够指导真实机器人完成任务.7 任务与运动规划.8 桌面环境操作.9 移动操作.11 其他实验:通用视觉语言任务和通用语言任务.13 风险提示.14 ZXFUxOrMmPqRqOoNqNpQoP6McM9PpNmMoMnOfQoOpMjMqRqMbRpPwOxNmRmQuOpPoO免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3计算机 PaLM-
8、E:具身化的多模态大语言模型PaLM-E 引入具身化和多模态概念。谷歌在 2022 年提出的 PaLM 模型基础上,引入了具身化和多模态概念,实现了指导现实世界机器人完成相应任务的功能。PaLM-E 的字面理解,是以 PaLM 作为预训练的语言模型,并使其具身化(Embodied)。其中,机器学习中的具身化是指一种涉及到物理实体(如机器人)的机器学习方法,它可以使人工智能通过感知、行动和交互来学习和推理。具身化的机器学习方法可以处理多模态的数据,如语言、视觉和触觉,并且可以适应不同的环境和任务。PaLM-E 主要思想是利用现有 LLM 和语言嵌入方法解决多模态问题。PaLM-E 的主要架构思想
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 行业 证券 研究 报告 GPT 系列