解读 ChatGPT 背后的技术重点：RLHF、IFT、CoT、红蓝对抗

文档编号：2601212

上传时间：2023-05-27

格式：PDF

页数：6

大小：804.69KB

《解读 ChatGPT 背后的技术重点：RLHF、IFT、CoT、红蓝对抗》由会员分享，可在线阅读，更多相关《解读 ChatGPT 背后的技术重点：RLHF、IFT、CoT、红蓝对抗（6页珍藏版）》请在启牛文库网上搜索。

1、解读 ChatGPT 背后的技术重点：RLHF、IFT、CoT、红蓝对抗近段时间，ChatGPT 横空出世并获得巨大成功，使得 RLHF、SFT、IFT、CoT 等这些晦涩的缩写开始出现在普罗大众的讨论中。这些晦涩的首字母缩略词究竟是什么意思？为什么它们如此重要？我们调查了相关的所有重要论文，以对这些工作进行分类，总结迄今为止的工作，并对后续工作进行展望。我们先来看看基于语言模型的会话代理的全景。ChatGPT 并非首创，事实上很多组织在 OpenAI之前就发布了自己的语言模型对话代理(dialog agents)，包括 Meta 的 BlenderBot，Google 的LaMDA，Deep

2、Mind 的 Sparrow，以及 Anthropic 的 Assistant(Anthropic 的 Claude 就是部分基于 Assistant 继续开发而得的)。其中一些团队还公布了他们构建开源聊天机器人的计划，并公开分享了路线图(比如 LAION 团队的 Open Assistant)，其他团队肯定也有类似的内容，但尚未宣布。下表根据是否能公开访问、训练数据、模型架构和评估方向的详细信息对这些 AI 聊天机器人进行了比较。ChatGPT 没有这些信息的记录，因此我们改为使用 InstructGPT 的详细信息，这是一个来自 OpenAI 的指令微调模型，据信它是 ChatGPT 的基

3、础。LaMDABlenderBot 3SparrowChatGPT/InstructGPTAssistant组织GoogleMetaDeepMindOpenAIAnthropic能否公开访问否能否有限否大小137B175B70B175B52B预训练基础模型未知OPTChinchillaGPT-3.5未知预训练语料库大小(词数)2.81T180B1.4T未知400B模型是否可以访问网络有监督微调获取更多最新资料请加微信：chensasa666LaMDABlenderBot 3SparrowChatGPT/InstructGPTAssistant微调数据大小质量：6.4K 安全性：8K 真实性：4

4、K IR：49K大小从 18K 到1.2M 不等的 20个 NLP 数据集未知12.7K(此为InstructGPT，ChatGPT 可能更多)150K+LM 生成的数据RLHF人为制定的安全规则评价标准1、质量(合情性、具体性、趣味性)2、安全性(偏见)3、真实性1、质量(参与度、知识运用)2、安全性(毒性、偏见)1、校直(有帮助，无害，正确)2、证据(来自网络)3、是否违反规则4、偏见和刻板印象5、诚信度1、校直(有帮助、无害、真实)2、偏见1、校直(有帮助、无害、诚实)2、偏见用于数据标注的众包平台美国供应商亚马逊 MTurk未知Upwork 和 ScaleAISurge AI、Amaz

5、onMTurk 和Upwork我们观察到，尽管在训练数据、模型和微调方面存在许多差异，但也存在一些共性。上述所有聊天机器人的一个共同目标是指令依从(instruction following)，即遵循用户指定的指令。例如，要求 ChatGPT 写一首关于微调的诗。获取更多最新资料请加微信：chensasa666ChatGPT 指令示例从预测文本到遵循指令通常，基础模型的语言建模目标不足以让模型学会以有用的方式遵循用户的指令。模型创建者使用指令微调(Instruction Fine-Tuning，IFT)方法来达到该目的，该方法除了使用情感分析、文本分类、摘要等经典 NLP 任务来微调模型外，还

6、在非常多样化的任务集上向基础模型示范各种书面指令及其输出，从而实现对基础模型的微调。这些指令示范由三个主要部分组成指令、输入和输出。输入是可选的，一些任务只需要指令，如上文使用 ChatGPT 做开放式文本生成的示例。当存在输入时，输入和输出组成一个实例(instance)。给定指令可以有多个输入和输出实例。如下例(摘自 Wang 等，22)：指令和实例示例获取更多最新资料请加微信：chensasa666IFT 的训练数据通常是人工编写的指令及用语言模型自举(bootstrap)生成的实例的集合。在自举时，先使用少样本技术输入一些样本给 LM 用于提示它(如上图所示)，随后要求 LM 生成新

7、的指令、输入和输出。每一轮都会从人工编写的样本和模型生成的样本中各选择一些送给模型。人类和模型对创建数据集的贡献构成了一个谱图，见下图：IFT 谱图谱图的一端是纯模型生成的 IFT 数据集，例如 Unnatural Instructions(Honovich 等，22)；另一端是经由社区的大量努力精心制作的指令如 Super-natural instructions(Wang 等，22)。在这两者之间的工作是使用一小组高质量的种子数据集，然后进行自举生成最终数据集，如 Self-Instruct(Wang 等，22)。为 IFT 整理数据集的另一种方法是将现有的用于各种任务(包括提示)的高质量

8、众包 NLP 数据集使用统一模式或不同模板转换为指令。这一系列工作包括 T0(Sanh等，22)、Natural instructions 数据集(Mishra 等，22)、FLAN LM(Wei 等，22)和 OPT-IML(Iyer 等，22)。安全地遵循指令然而，经过指令微调的 LM 并不总是能生成有帮助的和安全的响应。这种行为的例子包括通过总是给出无益的回应来逃避，例如“对不起，我不明白。”或对敏感话题的用户输入生成不安全的响应。为了减轻这种行为，模型开发人员使用*有监督微调(Supervised Fine-tuning，SFT)*，在高质量的人类标注数据上微调基础语言模型，以

9、提高有用性和无害性。例如，请参阅下面的表格（摘自 Sparrow 论文的附录 F)。SFT 和 IFT 联系非常紧密。指令微调可以看作是有监督微调的一个子集。在最近的文献中，SFT阶段经常被用于提高响应的安全性，而不是接在 IFT 后面提高指令相应的具体性。将来，这种分类和划分应该日臻成熟，形成更清晰的使用场景和方法论。人工安全规则谷歌的 LaMDA 也根据一组规则(论文附录 A)在带有安全标注的对话数据集上进行微调。这些规则通常由模型创建者预先定义和开发，涵盖广泛的主题，包括伤害、歧视、错误信息。微调模型获取更多最新资料请加微信：chensasa666同时，OpenAI 的 Instruct

10、GPT、DeepMind 的 Sparrow 和 Anthropic 的 Constitutional AI 使用人类反馈强化学习(Reinforcement Learning From Human Feedback，RLHF)来微调模型，该方法使用基于人类偏好的标注数据。在 RLHF 中，根据人类反馈来对模型的响应进行排序标注(如，根据人类偏好选择文本简介)。然后，用这些带标注的响应来训练偏好模型，该模型用于返回 RL 优化器的标量奖励。最后，通过强化学习训练对话代理来模拟偏好模型。有关更多详细信息，请参阅我们之前关于 RLHF 的文章:ChatGPT 背后的“功臣”RLHF 技术详解。思

11、维链(Chain-of-thought，CoT)提示(Wei 等，22)是指令示范的一种特殊情况，它通过引发对话代理的逐步推理来生成输出。使用 CoT 微调的模型使用带有逐步推理的人工标注的指令数据集。这是 Lets think step by step 这一著名提示的由来。下面的示例取自 Chung 等，22，橙色高亮的部分是指令，粉色是输入和输出，蓝色是 CoT 推理。CoT 图解如 Chung 等，22 中所述，使用 CoT 微调的模型在涉及常识、算术和符号推理的任务上表现得更好。如 Bai 等，22 的工作所示，CoT 微调也显示出对无害性非常有效(有时比 RLHF 做得更好)，而且对

12、敏感提示，模型不会回避并生成“抱歉，我无法回答这个问题”这样的回答。更多示例，请参见其论文的附录 D。CoT 和 RLHF 的对比要点1.与预训练数据相比，您只需要非常小的一部分数据来进行指令微调(几百个数量级)；2.使用人工标注的有监督微调使模型输出更安全和有用；获取更多最新资料请加微信：chensasa6663.CoT 微调提高了模型在需要逐步思考的任务上的性能，并使它们在敏感话题上不那么回避。对话代理的进一步工作这个博客总结了许多关于使对话代理有用的现有工作。但仍有许多悬而未决的问题有待探索。我们在这里列出了其中的一些。1.RL 在从人类反馈中学习有多重要？我们能否通过在 IFT 或 S

13、FT 中使用更高质量的数据进行训练来获得RLHF 的性能？2.为了安全的角度看，Sparrow 中的 SFT+RLHF 与 LaMDA 中仅使用 SFT 相比如何？3.鉴于我们有 IFT、SFT、CoT 和 RLHF，预训练有多大的必要性？如何折衷？人们应该使用的最佳基础模型是什么(公开的和非公开的)？4.本文中引用的许多模型都经过红蓝对抗(red-teaming)的精心设计，工程师特地搜寻故障模式并基于已被揭示的问题改进后续的训练(提示和方法)。我们如何系统地记录这些方法的效果并重现它们？P.s.如果您发现本博客中的任何信息缺失或不正确，请告知我们。引用Rajani et al.,What

14、 Makes a Dialog Agent Useful?,Hugging Face Blog,2023.BibTeX 引用:article rajani2023ift,author=Rajani,Nazneen and Lambert,Nathan and Sanh,Victor and Wolf,Thomas,title=What Makes a Dialog Agent Useful?,journal=Hugging Face Blog,year=2023,note=https:/huggingface.co/blog/dialog-agents,英文原文:What Makes a Dialog Agent Useful?译者:Matrix Yao(姚伟峰)，英特尔深度学习工程师，工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。获取更多最新资料请加微信：chensasa666

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

2 积分

下载	开通VIP享超值特权

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 解读 ChatGPT 背后的技术重点：RLHF、IFT、CoT、红蓝对抗背后技术重点 RLHF IFT CoT 对抗

启牛文库网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：解读 ChatGPT 背后的技术重点：RLHF、IFT、CoT、红蓝对抗
链接地址：https://www.wojuba.com/doc/2601212.html