人工智能-ChatGPT用户破百万关注超大规模自然语言处理预训练模型-221211
《人工智能-ChatGPT用户破百万关注超大规模自然语言处理预训练模型-221211》由会员分享,可在线阅读,更多相关《人工智能-ChatGPT用户破百万关注超大规模自然语言处理预训练模型-221211(12页珍藏版)》请在启牛文库网上搜索。
1、 本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。证券研究报告行业动态ChatGPT 用户破百万,关注超大规模自然语言处理预训练模型 产业要闻【5 天用户破百万,ChatGPT 背后有何玄机】行业变化 2022 年 11 月 30 日,OpenAI 发布了 ChatGPT 人机对话交互模型,相比过去的人机对话模型,ChatGPT 展现出更贴近人类的思维逻辑,可以回复用户的连续问题,具有一定的道德准则,减少了错误问答的出现概率,具备代码的
2、编写和 debug 功能。ChatGPT 在人机对话上到达了前所未有的高度,模型开放测试一周用户便突破了百万级别。ChatGPT 作为 GPT3.5 的微调版本,采用了基于人类反馈的强化学习(RLHF)和近端优化策略(PPO),通过奖励模型的设定,极大减少了无效的、编造的、有害的答案出现概率,更多输出了人们期望的答案。当前 ChatGPT 已经在诸多问答环节里表现出极高的拟人化,足以以假乱真。目前 ChatGPT 处于免费的开源公测阶段,仍在优化迭代过程中。前代版本 GPT-3 已经商业化落地,基于 GPT-3 产生的 APP 达 300 多个,覆盖传媒、营销等领域,OpenAI 以 API
3、的形式向开发者提供有偿的 GPT-3模型使用权限,按照 token(1000 tokens=750 words)使用量收费,1000 tokens 收费在 0.00040.2 美元之间。我们预计,超大规模的自然语言预处理模型将率先在传媒营销、搜索引擎增强、代码编程等领域实现商业落地。当前自然语言处理的快速发展已让我们更加临近图灵测试的奇点,未来人工智能将深刻地改变我们的生产生活方式。我们应当重点关注自然语言处理的技术进展、大规模商业的落地途径以及我国超大规模预训练模型的发展进展。持续关注:GPU:英伟达、超威半导体、海光信息等;FPGA:安路科技-U 等;SoC:高通、全志科技等;自然语言处理
4、:科大讯飞等;计算机视觉:云从科技-UW、商汤-W、格灵深瞳-U 等;自动驾驶:德赛西威、中科创达、均胜电子、光庭信息;智慧交通:千方科技、万集科技;AI+工业:中控技术、华大九天、广立微、概伦电子等。风险提示:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期。维持强于大市 于芳博 010-86451607 SAC 执证编号:S1440522030001 发布日期:2022 年 12 月 11 日 市场表现相关研究报告-35%-25%-15%-5%5%15%2021/12/102022/1/102
5、022/2/102022/3/102022/4/102022/5/102022/6/102022/7/102022/8/102022/9/102022/10/102022/11/10计算机上证指数人工智能 获取更多最新资料请加微信:chensasa666 1 人工智能行业动态报告 请参阅最后一页的重要声明一、行业变化 2022 年 11 月 30 日,OpenAI 发布了 ChatGPT 人机对话交互模型,相比过去的人机对话模型,ChatGPT 展现出更贴近人类的思维逻辑,可以回复用户的连续问题,具有一定的道德准则,减少了错误问答的出现概率,具备代码的编写和 debug 功能。ChatGPT
6、在人机对话上到达了前所未有的高度,模型开放测试一周用户便突破了百万级别。OpenAI 是 2015 年成立的一家人工智能公司,提出过很多里程碑式的人工智能模型,包括性能强大的自然语言预处理模型 GPT-3,用于图像生成的模型 DALL-E 2,击败 Dota 2 电竞职业选手的 OpenAI Five。此次发布的 ChatGPT 是 GPT3.5 的微调版本,在过去的 GPT 模型基础之上增加了 3H 目标,其中包括:Helpful:帮助用户实现任务目标,Honest:不会编造信息误导用户,Harmless:不会对用户造成心理、生理、社交方面的损害。过去的 GPT 模型采用了掩码策略去训练模型
7、,会根据特定的上文内容生成不同概率的后续文本,由于采用纯无监督学习方式,可能呈现诸多无效的、编造的、有害的答案。ChatGPT 通过基于人类反馈的强化学习方式(RLHF)和近端优化策略(PPO)很好的减少了相应情况的发生。图表1:基于人类反馈的强化学习在 ChatGPT 中的应用资料来源:OpenAI,中信建投 ChatGPT 主要通过三个步骤来实现基于人类反馈的强化学习:1.人工标注员提供一个人工编写的演示数据集,在 ChatGPT 的兄弟版本 InstructGPT 中,采用了 40 位人工标注员挑选的 13000 个问答组成数据集,通过数据集去微调 GPT-3.5 语言模型。2.人工标注
8、员对模型输出的候选答案进行优劣排序同时给予不同的奖励值,将所有的问答训练得到一个奖励模型,对于特定的答案会有对应的奖励值输出。3.通过近端优化策略去持续更新策略参数,使其符合最大化的奖励模型。获取更多最新资料请加微信:chensasa666 2 人工智能行业动态报告 请参阅最后一页的重要声明 训练过程中,3H 目标也以一定的奖励比重影响到最后的结果呈现,经过基于人类反馈的强化学习,ChatGPT很好的呈现了人们期望的答案,但是也应当注意,人工标注员因为具备不同的文化、背景、信仰,标签可能存在一定的偏见。我们认为,当前自然语言处理的快速发展已让我们更加临近图灵测试的奇点,我们应当重点关注自然语言
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 ChatGPT 用户 百万 关注 超大规模 自然语言 处理 训练 模型 221211