微软最近的研究集中在通过模仿学习来提高较小模型的能力,利用大型基础模型(LFMs)产生的输出。许多问题影响这些模型的质量,从来自

微软最近的研究集中在通过模仿学习来提高较小模型的能力,利用大型基础模型(LFMs)产生的输出。许多问题影响这些模型的质量,从来自浅LFM输出的有限模仿信号;小规模同质训练数据;最明显的是缺乏严格的评估,导致高估了小模型的能力,因为他们倾向于学习模仿风格,而不是LFM的推理过程。 为了解决这些挑战,微软开发了 Orca,一个130亿美元的参数模型,可以学习模拟lfm的推理过程。Orca从GPT-4的丰富信号中学习,包括解释痕迹;一步一步的思维过程;以及其他复杂的指令,由ChatGPT的老师指导。为了促进这种渐进式学习,微软利用明智的抽样和选择来获取大规模和多样化的模仿数据。在复杂的零射击推理基准(BBH)中,Orca比传统的最先进的指令调优模型,如Vicuna-13B上超过了100%,在AGIEval上超过了42%。此外,Orca在BBH基准上与ChatGPT持平,并在SAT、LSAT、GRE和GMAT等专业和学术考试中表现出竞争力(与优化系统信息差距4分),都是在没有CoT的零射击设置中而落后于GPT-4。 研究表明,从循序渐进的解释中学习,无论这些解释是由人类还是更先进的人工智能模型生成的,都是提高模型能力和技能的一个很有前途的方向。

相关推荐

封面图片

马斯克 xAI 公布大型语言模型 Grok

马斯克 xAI 公布大型语言模型 Grok Grok 是一款模仿《银河系漫游指南》的AI,因此几乎可以回答任何问题。它会机智地回答问题且有叛逆倾向,讨厌幽默的人可能不适合它。它还将回答大多数AI会拒绝的尖锐问题。 xAI 先是训练了330亿参数的原型模型 Grok-0,接着在过去两个月训练出了 Grok-1。初始版本上下文支持8192个 token。未来将添加其它感官如视觉和听觉。预训练数据截至2023年第三季度,根本优势是可以通过 X/Twitter 实时了解世界信息流。 推理和编码基准测试中:Grok-1 强过 GPT-3.5,弱于 PaLM 2 (Bard)、Claude 2、GPT-4。 《2023年5月匈牙利全国高中数学考试》测试中 (防止AI"背题"): 1. GPT-4 (68%) 2. Grok-1 (59%) 3. Claude-2 (55%) 4. GPT-3.5 (41%) 5. Grok-0 (37%)

封面图片

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI 发布新一代大型多模态模型 GPT-4 GPT-4 是一个大型多模态模型,可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现,例如模拟律师考试中,GPT-4 的得分约为前10%,而 GPT-3.5 的得分约为倒数10%。 在多语言测试中,GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ,包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。 OpenAI 还开放了角色扮演和性格定制能力,开发人员和用户可以自定义他们的AI风格,而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。 ChatGPT Plus 订阅用户现可直接 GPT-4 ,未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要候选名单,每1k prompt tokens 的价格为$0.03,每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段,仅对少部分客户开放。 微软在 GPT-4 发布后也正式 Bing Chat 基于 GPT-4 运行,同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同,Bing Chat 可联网获取实时信息并且免费。

封面图片

据 Windowslatest 报道,微软必应聊天的 GPT-4 Turbo 模型近日向部分随机选中的用户免费开放,该模型基于

据 Windowslatest 报道,微软必应聊天的 GPT-4 Turbo 模型近日向部分随机选中的用户免费开放,该模型基于 OpenAI 的最新人工智能技术,能够提供更智能、更流畅、更有趣的聊天体验。此外,微软还计划升级必应聊天的代码解释器功能,使其与 OpenAI 的能力保持一致,这意味着代码解释器将能够处理更复杂的编程或数据问题。 GPT-4 Turbo 是 ChatGPT 的一种新模型,只有 ChatGPT 付费用户可以使用。但现在用户也可以通过微软的必应聊天(现在也统称为 Copilot)功能免费使用。该模型是现有的 GPT-4 模型的升级版,包含了截至 2023 年 4 月的信息,因此能够在搜索新事件时返回更好的结果。 微软的消息人士证实,该公司正在将 GPT-4 Turbo 模型推送到必应聊天,但必应会根据查询的不同切换不同的模型。 据了解,是否能够通过必应聊天使用 GPT-4 Turbo 目前完全取决于用户的运气,但微软已经确认计划在未来几周内扩大推出范围。 值得一提的是,微软并不偏爱特定的账户或地区,这个测试是完全随机的,官方称之为“A / B”测试。 那么,如何知道是否使用了必应聊天的 GPT-4 Turbo 模型呢?最简单的方法是打开 Bing Chat,开始一个新话题,并查看网页的源代码。使用 Edge 或 Chrome 的“在页面上查找”功能,搜索 dlgpt4t。如果在网页的源代码中发现了 dlgpt4t 的字样,就说明可以使用最新的 OpenAI 模型。 在移动设备上,可以通过上传一张图片(最好是一张抽象的图片)并让必应聊天解释图片中的情绪,来验证是否已经获得使用 GPT-4 Turbo 的资格。与旧的模型不同,必应聊天的 GPT-4 Turbo 可以识别和谈论情绪。 此外,我们知道微软必应聊天默认启用了搜索网络的功能。但是通过新的插件功能,用户现在可以禁用“搜索”插件,当“搜索”插件被禁用时,必应聊天不会在必应搜索引擎中搜索答案。没有搜索插件,必应聊天完全依赖于其训练过的数据。如果用户询问 2023 年 1 月至 4 月之间的事件,而必应聊天能够回答,那么说明用户已经拥有了 GPT-4 Turbo 模型的使用权。 via 匿名 标签: #微软 #Bing 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

大型语言模型基础知识可视化学习指南 ||| #指南 #可视化

大型语言模型基础知识可视化学习指南 ||| #指南 #可视化 本文收集了一系列工具和文章,通过直观的可视化方式解释大型语言模型(LLM)的基础概念。 Jay Alammar的《图解Transformer》以生动的可视化说明了Transformer架构的工作原理。由于Transformer是所有语言模型的基石,理解它的基础尤为重要。《图解GPT-2》直观地展示了GPT-2的内部结构,如注意力机制等,有助于理解LLM的组成部分。 Brendan Bycroft的LLM可视化工具允许直观地探索不同LLM内部状态的变化。 Financial Times的文章解释了Transformer的重要性,以及它如何促成了生成式AI的发展。 OpenAI的Tokenizer工具演示了Tokenizer在文本处理中的作用。 Simon Wilson的文章深入解释了GPT Tokenizer的工作原理。 Greg Kamradt的Chunkviz工具展示了文本是如何被LLM处理成“块”的。 PAIR的“机器学习模型记忆还是泛化?”交互式介绍了两种学习方式及其对LLM的影响。 这些资源从多个维度直观地说明了LLM的核心概念和机制,有助于科技从业者和爱好者更好地理解LLM技术的本质。

封面图片

几周前,OpenAI 在其首次开发者活动中发布了用于生成式人工智能服务的最新大型语言模型 GPT-4 Turbo。随后,微软宣布

几周前,OpenAI 在其首次开发者活动中发布了用于生成式人工智能服务的最新大型语言模型 GPT-4 Turbo。随后,微软宣布将把 GPT-4 Turbo 模型添加到其 Azure OpenAI 服务中。 今天,微软宣布增强其 Azure OpenAI 服务,GPT-4 Turbo with Vision 模型现已作为公开预览版提供给客户。 此外,微软还通过 GPT-4 Turbo with Vision 预览版为 Azure OpenAI 客户增加了更多功能。其中之一是光学字符识别(OCR),它可以检查图像并提取图像中的任何文本,以便将其整合到用户提示中。 GPT-4 Turbo with Vision 的另一项功能是对象接地,它可以让人工智能检查图像,并根据用户的文本提示显示图像中的关键对象。同样,人工智能还可以分析视频的特定帧。 标签: #OpenAI #微软 #Azure 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

IBM发布开源模型Granite Code 在编程任务中超过谷歌模型

IBM发布开源模型Granite Code 在编程任务中超过谷歌模型 IBM 最近发布了一组名为"Granite Code"的开源型,旨在帮助企业完成各种软件开发任务,并在基准测试中表现出色。这些模型不仅过了一些较大的开源竞争对手,而且在编程任务中展现出了强大的性能。Granite Code 型分为基础模型和指导模型,每种模型都有四个不同规模的变种,参数数量从30到340亿不等。这些模型的上下文窗口相对较短,例如,其中一个模型的上下文窗口只有128K,这限制了其在包含特定文档或自己的代码库等提示信息时的有效性。不过,IBM 目正在开发具有更大上下文窗口的版本。基础模型的训练分为两个阶段。第一阶段使用自116种编程语言的3-4万亿个标记进行训练,以建立广泛的理解能力。在第阶段,这些模型使用来自高质量代码和自然语言数据的5000亿个标记进行进一步训练,以强逻辑推理能力。指导模型是通过对基础模型进行改进而创建的,改进方法包括筛选提交记录、自然语言指令记录和合成生成的代码数据集。在包括代码合成、调试、解释、编辑、学推理等多个基准测试中,Granite Code 模型在各个规模和基准测试中表现出色,常常超过开源模型两倍以上的大小。例如,在 HumanEvalPack 基准测试中,Granite-8B-Code-Base 的平均得为33.2%,超过Google最佳表现的 CodeGemma-8B 模型的21.3%,尽管 Granite-8-Code-Base 所使用的标记数量明显较少。这些模型的大部分训练数据来自一个清理过的 GitHub 集 StarCoderData 和其他公开可用的代码库。这一点非常重要,因为目前有一些关于其他代码型(包括 GitHub 本身)涉嫌侵犯训练数据版权的诉讼。IBM 计划定期更新这些模型,很快将推出具有更大上下文窗口以及针对 Python 和 Java 的专业化版本。这些模型已经在 Hugging FaceGitHub 上可用,并且也是 IBM 的 watsonx 企业平台的一部分。IBM 的 Granite Code 是一专门用于编程的开源模型,它们在基准测试中表现优异,同时具有较少的参数数量。些模型的特点包括灵活的规模选择、基于广泛训练数据的逻辑推理能力和良好的性能未来,IBM 还计划不断改进和更新这些模型,以满足不同编程任务的需求。产品入口: ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人