154页微软GPT研究报告(全中文版)
《154页微软GPT研究报告(全中文版)》由会员分享,可在线阅读,更多相关《154页微软GPT研究报告(全中文版)(158页珍藏版)》请在启牛文库网上搜索。
1、1人工通用智能的火花:GPT-4的早期实验SebastienBubeckVarun ChandrasekaranRonen EldanJohannes Gehrke Eric HorvitzKamarPeter LeeYin Tat LeeYuanzhi LiScott LundbergHarsha NoriHamid PalangiMarco Tulio RibeiroYi Zhang微软研究院摘要人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4Ope23,是使用前
2、所未有的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将
3、其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测的新范式。最后,我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。内容1介紹41.1我们研究GPT-4情报的方法71.2组织我们的示范活动。82多模态和跨学科构成132.1综合能力.132.2愿景.162.2.1超越记忆的图像生成.162.2.2按照详细的指示生成图像(a la Dall-E)。.172.2.3在草图生成中可能的应用.182.3音乐.193编码213.1从指令到代码.
4、213.1.1编码挑战.213.1.2现实世界的情景.223.2了解现有代码.26arXiv:2303.12712v1 cs.CL 2023年3月22日24数学能力304.1与GPT-4的数学对话.314.1.1对原问题的第一个概括.314.1.2原问题的第二个变体.324.1.3对谈话中强调的局限性的分析.344.2数学问题数据集上的表现.354.3各个领域的数学建模.374.4高等数学.395与世界的互动435.1工具的使用.435.1.1使用多种工具来解决更复杂的任务.445.1.2讨论.495.2体现的互动.495.2.1热身运动:地图导航.495.2.2基于文本的游戏.495.2.3
5、真实世界的问题.525.2.4讨论.536与人类的互动546.1了解人类:心智理论.546.1.1测试心智理论的具体方面.546.1.2在现实的场景中测试心智理论.546.1.3讨论.606.2与人类对话:可解释性.607辨别能力697.1PII检测.697.2误解与事实核查.707.2.1为什么目前的衡量标准是不充分的?.717.2.2担任法官的GPT-4.738GPT-4所强调的自回归结构的局限性768.1用两个基本的例子进行热身.768.2在算术/推理问题上缺乏计划性.778.3在文本生成中缺乏规划.789社会影响829.1错误世代的挑战.829.2虚假信息和操纵.839.3偏向.869
6、.4人的专长、工作和经济.899.5影响因素和考虑因素的组合.9010 方向和结论9210.1 智能、人工智能和AGI的定义.9210.2 在通往更普遍的人工智能的道路上.9310.3 实际上发生了什么?.94一个GPT-4有常识性接地101B 多模态和跨学科组成的附录105B.1关于综合能力结果的进一步细节.105B.2关于视觉结果的进一步细节.1083B.3平面小说设计实例.110C 编码部分的附录111C.1 测量人类在LeetCode上的表现.111C.2 GPT-4可视化IMDb数据的例子。.112C.3 更多关于可视化的例子.115C.4 二维HTML游戏开发实例.116C.5 图
7、形用户界面编程的例子.116C.6 逆向工程的例子.119C.7 测试GPT-4执行(伪)代码的能力.121D 数学推理的其他例子122D.1 限制条件.122D.2 更多的例子.126D.3 用GPT-4生成数学问题.138D.4 通过外部代码执行减轻计算错误.139E 其他可解释的例子141E.1解释代理不匹配.141F 与世界互动的其他例子144F.1与工具互动.144F.2与环境互动的例子.1494一些未知的东西正在做我们不知道的事情。-阿瑟-爱丁顿爵士1简介智力是一个多方面的、难以捉摸的概念,长期以来一直对心理学家、哲学家和计算机科学家构成挑战。1994年,一个由52位心理学家组成的
8、小组试图抓住其本质,他们在一篇关于智力科学的社论中发表了一个广泛的定义Got97。该共识小组将智力定义为一种非常普遍的心理能力,其中包括推理、计划、解决问题、抽象思考、理解复杂概念、快速学习和从经验中学习的能力。这个定义意味着智能并不局限于某个特定的领域或任务,而是包含了广泛的认知技能和能力。建立一个能表现出1994年共识定义中的那种通用智能的人工系统是人工智能研究的一个长期的、雄心勃勃的目标。在早期的著作中,现代人工智能(AI)研究学科的创始人提出了一系列理解智能的理想目标MMRS06。几十年来,人工智能研究者们一直在追求智能的原则,包括可推广的推理机制(例如,NSS59,LBFL93)和构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 154 微软 GPT 研究 报告 中文版