计算机行业研究:文心一言、GPT3.5及GPT-4的应用测评对比
《计算机行业研究:文心一言、GPT3.5及GPT-4的应用测评对比》由会员分享,可在线阅读,更多相关《计算机行业研究:文心一言、GPT3.5及GPT-4的应用测评对比(32页珍藏版)》请在启牛文库网上搜索。
1、敬请参阅最后一页特别声明 1 OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API;国内百度于 3 月 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT 的原模型)和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观,但文
2、心一言的分词功能有待提升;目前 GPT-4 尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。在归纳和推理类问题中,文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型,但在归纳总结类任务中表现较好;三大模型在情感推理类问题中仍有提升空间。在数学和代码类问题中,GPT-3.5 有更好的数学能力表现;GPT-3.5 及 GPT-4 模型均完成了本文提出的代码生成问题,但并非最优解,文心一言代码问题识别能力有待加强。在应用场景测试中,三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务,但在文言文和古诗词理解运用方面表现不佳。我们认为随百度文心及 O
3、penAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升,各模型性能都有望实现进一步优化完善。文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司,如万兴科技、汉得信息、凌志软件、同花顺、金山办公。海外基础软硬件使用受限;应用落地不及预期
4、;行业竞争加剧风险;测评问题有限导致结果或有偏差。行业深度研究 敬请参阅最后一页特别声明 2 内容目录 1.常识和创作.3 2.归纳和推理.7 3.数学和代码.12 4.现实应用场景测试.17 5.投资建议.30 6.风险提示.30 图表目录 图表 1:三大模型测评结果综合对比.3 图表 2:常识类问题的回答对比.4 图表 3:文字创作问题的回答对比.4 图表 4:图像创作问题的回答对比.6 图表 5:演绎推理问题的回答对比.7 图表 6:情感推理问题的回答对比.8 图表 7:逻辑推理问题的回答对比.9 图表 8:归纳总结问题的回答对比.10 图表 9:数学问题的回答对比.13 图表 10:代
5、码生成问题的回答对比.14 图表 11:安全应用问题的回答对比.18 图表 12:生活应用问题的回答对比.19 图表 13:客服场景问题的回答对比.21 图表 14:办公协同问题的回答对比.22 图表 15:推荐场景问题的回答对比.26 图表 16:诗词理解问题的回答对比.28 行业深度研究 敬请参阅最后一页特别声明 3 文心一言开放测试后,我们对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评,测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。根据测试结果可以看出
6、,三大模型在客观问题问答方面都有出色表现,但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看,文心一言在图像创作、归纳总结等问题中表现较为出色,但在逻辑推理领域还有待加强。在具体应用中,三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求,但在文本修饰及古诗词理解领域仍有提升空间。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平持续提升,各模型性能都有望进一步优化。图表1:三大模型测评结果综合对比应用领域文心一言GPT-3.5GPT-4常识和创作常识类问题正确正确正确且更为严谨文字创作分词错误正确正确且细节更丰富图像创作生成图像符合要
7、求无法生成图像生成功能暂未开放归纳和推理演绎推理错误正确正确情感推理结果正确,过程有偏差错误错误逻辑推理错误错误基本正确归纳总结符合要求,对未知内容直接进行网页搜索未能提取正确信息符合要求,可对未知内容进行推理,多轮对话能力较强数字和代码数学计算错误正确错误代码生成错误未给出最优答案未给出最优答案模拟 AI助手安全类问题符合要求符合要求符合要求生活类问题符合要求且给出可靠建议符合要求符合要求模拟 AI客服退换货问题符合要求符合要求符合要求模拟办公助手场景文档生成符合要求符合要求符合要求文字修饰有待改进有待改进有待改进模拟推荐助手推荐理财产品及生日礼物符合要求符合要求符合要求教学辅助古诗词理解基
8、本正确部分内容错误部分内容错误来源:百度文心一言官网,chat.openai 官网,国金证券研究所常识和创作部分我们分别对 3 个模型提出基于客观事实的常识问答、给定主题的文字创作问题、给定主题的图像创作问题,以评价模型对已有知识的表述能力和图文生成能力。常识题:中国有多少个省?3 个模型都进行了正确的回答,其中 GPT-4 生成的答案最为严谨和详细,不仅说明了“截止 2021 年”(由于 GPT-4 的知识截止 2021 年)、优先列举了省份,且对具体省级行政区的名称进行了详尽的列示。行业深度研究 敬请参阅最后一页特别声明 4 图表2:常识类问题的回答对比文心:GPT-3.5:(生成的文字过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 行业 研究 文心一言 GPT3