17ChatGPT发展历程、原理、技术架构详解和产业未来

文档编号：2601074

上传时间：2023-05-27

格式：PDF

页数：15

大小：933.93KB

《17ChatGPT发展历程、原理、技术架构详解和产业未来》由会员分享，可在线阅读，更多相关《17ChatGPT发展历程、原理、技术架构详解和产业未来（15页珍藏版）》请在启牛文库网上搜索。

1、来源：陈巍谈芯，本文将介绍ChatGPT的特点、功能、技术架构、局限、产业应用、投资机会和未来。作者：陈巍博士，作者本人曾担任华为系自然语言处理（NLP）企业的首席科学家。存算一体/GPU架构和AI专家，高级职称。中关村云计算产业联盟，中国光学工程学会专家，国际计算机学会（ACM）会员，中国计算机学会（CCF）专业会员。曾任AI企业首席科学家、存储芯片大厂3D NAND设计负责人，主要成就包括国内首个大算力可重构存算处理器产品架构（已在互联网大厂完成原型内测），首个医疗领域专用AI处理器（已落地应用），首个RISC-V/x86/ARM平台兼容的AI加速编译器（与阿里平头哥/芯来合作，已应用）

2、，国内首个3D NAND芯片架构与设计团队建立（与三星对标），国内首个嵌入式闪存编译器（与台积电对标，已平台级应用）ChatGPT专题ChatGPT发展历程、原理、技术架构详解和产业未来获取更多最新资料请加微信：chensasa6660，引言先上参考网页或论文。专业的读者可以直接看paper。ChatGPT:Optimizing Language Models for Dialogue ChatGPT:Optimizing Language Modelsfor DialogueGPT论文：Language Models are Few-Shot Learners Language Models

3、 are Few-Shot LearnersInstructGPT 论文：Training language models to follow instructions with human feedbackTraining language models to follow instructions with human feedbackhuggingface解读RHLF算法：Illustrating Reinforcement Learning from Human Feedback(RLHF)Illustrating Reinforcement Learning from Human

4、Feedback(RLHF)RHLF算法论文：Augmenting Reinforcement Learning with Human Feedbackcs.utexas.edu/ai-lab/pTAMER框架论文：Interactively Shaping Agents via Human Reinforcementcs.utexas.edu/bradknoxPPO算法：Proximal Policy Optimization Algorithms Proximal Policy Optimization Algorithms今年12月1日，OpenAI推出人工智能聊天原型ChatGPT，再

5、次赚足眼球，为AI界引发了类似AIGC让艺术家失业的大讨论。据报道，ChatGPT在开放试用的短短几天，就吸引了超过 100 万互联网注册用户。并且社交网络流传出各种询问或调戏ChatGPT的有趣对话。甚至有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体，能够在实时互动的过程中获得问题的合理答案。ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入，产生相应的智能回答。这个回答可以是简短的词语，也可以是长篇大论。其中GPT是Generative Pre-trainedTransformer（生成型预训练变换模型）的缩写。通过学习大量现成文本和对话集合（例如Wiki）

6、，ChatGPT能够像人类那样即时对话，流畅的回答各种问题。（当然回答速度比人还是慢一些）无论是英文还是其他语言（例如中文、韩语等），从回答历史问题，到写故事，甚至是撰写商业计划书和行业分析，“几乎”无所不能。甚至有程序员贴出了ChatGPT进行程序修改的对话。ChatGPT也可以与其他AIGC模型联合使用，获得更加炫酷实用的功能。例如上面通过对话生成客厅设计图。这极大加强了AI应用与客户对话的能力，使我们看到了AI大规模落地的曙光。1，ChatGPT的传承与特点获取更多最新资料请加微信：chensasa6661.1 OpenAI家族我们首先了解下OpenAI是哪路大神。OpenAI总部位于旧

7、金山，由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立，目标是开发造福全人类的AI技术。而马斯克则在2018年时因公司发展方向分歧而离开。此前，OpenAI 因推出 GPT系列自然语言处理模型而闻名。从2018年起，OpenAI就开始发布生成式预训练语言模型GPT（Generative Pre-trained Transformer），可用于生成文章、代码、机器翻译、问答等各类内容。每一代GPT模型的参数量都爆炸式增长，堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿，而2020年5月的GPT-3，参数量达到了1750亿。GPT家族主要模型对比1.2 Cha

8、tGPT的主要特点ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练，或用于收集大量对话数据。获取更多最新资料请加微信：chensasa666ChatGPT的主要特点OpenAI使用 RLHF（Reinforcement Learning from Human Feedbac，人类反馈强化学习）技术对 ChatGPT 进行了训练，且加入了更多人工监督进行微调。此外，ChatGPT 还具有以下特征：1）

9、可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案。2）ChatGPT 可以质疑不正确的问题。例如被询问“哥伦布 2015 年来到美国的情景”的问题时，机器人会说明哥伦布不属于这一时代并调整输出结果。3）ChatGPT 可以承认自身的无知，承认对专业技术的不了解。4）支持连续多轮对话。与大家在生活中用到的各类智能音箱和“人工智障“不同，ChatGPT在对话过程中会记忆先前使用者的对话讯息，即上下文理解，以回答某些假设性的问题。ChatGPT可实现连续对话，极大的提升了对话交互模式下的用户体验。对于准确翻译来说（尤其是中文与人名音译），ChatGPT离完美还有一段距离，不过在文字流

10、畅度以及辨别特定人名来说，与其他网络翻译工具相近。由于 ChatGPT是一个大型语言模型，目前还并不具备网络搜索功能，因此它只能基于2021年所拥有的数据集进行回答。例如它不知道2022年世界杯的情况，也不会像苹果的Siri那样回答今天天气如何、或帮你搜索信息。如果ChatGPT能上网自己寻找学习语料和搜索知识，估计又会有更大的突破。获取更多最新资料请加微信：chensasa666即便学习的知识有限，ChatGPT 还是能回答脑洞大开的人类的许多奇葩问题。为了避免ChatGPT染上恶习，ChatGPT 通过算法屏蔽，减少有害和欺骗性的训练输入。，查询通过适度 API 进行过滤，并驳回潜在的种族

11、主义或性别歧视提示。2，ChatGPT/GPT的原理2.1 NLPNLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解，以及对上下文短语的误解。对于人类或AI，通常需接受多年的训练才能正常对话。NLP类模型不仅要理解单词的含义，还要理解如何造句和给出上下文有意义的回答，甚至使用合适的俚语和专业词汇。NLP技术的应用领域本质上，作为ChatGPT基础的GPT-3或GPT-3.5 是一个超大的统计语言模型或顺序文本预测模型。2.2 GPT v.s.BERT与BERT模型类似，ChatGPT或GPT-3.5都是根据输入语句，根据语言/语料概率来自动生成回答的每一个字（词语）。从数学或从机

12、器学习的角度来看，语言模型是对词语序列的概率相关性分布的建模，即利用已经说过的语句（语句可以视为数学中的向量）作为输入条件，预测下一个时刻不同语句甚至语言集合出现的概率分布。获取更多最新资料请加微信：chensasa666ChatGPT 使用来自人类反馈的强化学习进行训练，这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中，人类训练者扮演着用户和人工智能助手的角色，并通过近端策略优化算法进行微调。由于ChatGPT更强的性能和海量参数，它包含了更多的主题的数据，能够处理更多小众主题。ChatGPT现在可以进一步处理回答问题、撰写文章、文本摘要、语言翻译和生成计算机代码等任务。BE

13、RT与GPT的技术架构（图中En为输入的每个字，Tn为输出回答的每个字）3，ChatGPT的技术架构3.1 GPT家族的演进说到ChatGPT，就不得不提到GPT家族。ChatGPT之前有几个知名的兄弟，包括GPT-1、GPT-2和GPT-3。这几个兄弟一个比一个个头大，ChatGPT与GPT-3更为相近。获取更多最新资料请加微信：chensasa666ChatGPT与GPT 1-3的技术对比GPT家族与BERT模型都是知名的NLP模型，都基于Transformer技术。GPT-1只有12个Transformer层，而到了GPT-3，则增加到96层。3.2 人类反馈强化学习InstructGP

14、T/GPT3.5（ChatGPT的前身）与GPT-3的主要区别在于，新加入了被称为RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）。这一训练范式增强了人类对模型输出结果的调节，并且对结果进行了更具理解性的排序。在InstructGPT中，以下是“goodness of sentences”的评价标准。真实性：是虚假信息还是误导性信息？无害性：它是否对人或环境造成身体或精神上的伤害？有用性：它是否解决了用户的任务？3.3 TAMER框架获取更多最新资料请加微信：chensasa666这里不得不提到TAMER（Training an

15、 Agent Manually via Evaluative Reinforcement，评估式强化人工训练代理）这个框架。该框架将人类标记者引入到Agents的学习循环中，可以通过人类向Agents提供奖励反馈（即指导Agents进行训练），从而快速达到训练任务目标。TAMER框架论文引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现，但是仍然存在着许多不足，例如训练收敛速度慢，训练成本高等特点。特别是现实世界中，许多任务的探索成本或数据获取成本很高。如何加快训练效率，是如今强化学习任务待解决的重要问题之一。而TAMER则可以将人类标记者的知识，以奖励信反馈的形式训

16、练Agent，加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术，语料成本更低。通过TAMER+RL（强化学习），借助人类标记者的反馈，能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。获取更多最新资料请加微信：chensasa666TAMER架构在强化学习中的应用具体实现上，人类标记者扮演对话的用户和人工智能助手，提供对话样本，让模型生成一些回复，然后标记者会对回复选项打分排名，将更好的结果反馈回模型中，Agents同时从两种反馈模式中学习人类强化和马尔可夫决策过程奖励作为一个整合的系统，通过奖励策略对模型进行微调并持续迭代。在此基础上，ChatGPT 可以比 GPT-3 更好的理解和完成人类语言或指令，模仿人类，提供连贯的有逻辑的文本信息的能力。3.4 ChatGPT的训练ChatGPT的训练过程分为以下三个阶段：第一阶段：训练监督策略模型GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由人类标注人获取更多最新资料请加微信：chen

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

2 积分

下载	开通VIP享超值特权

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 17 ChatGPT 发展历程原理技术架构详解产业未来

启牛文库网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：17ChatGPT发展历程、原理、技术架构详解和产业未来
链接地址：https://www.wojuba.com/doc/2601074.html