- HumanEval：Python代码补全任务，（Chen等人，2021），零-shot评估通过率@1。

- HumanEval：Python代码补全任务，（Chen等人，2021），零-shot评估通过率@1。 - 数学：中学和高中的数学问题以LaTeX格式编写，（Hendrycks等，2021），使用固定的4个提示进行提示。在这些基准测试中，Grok-1展现出了强大的结果，超过了其所属计算级别中的所有其他模型，包括ChatGPT-3.5和Inflection-1。它只被那些使用了大量训练数据和计算资源进行训练的模型所超越，比如GPT-4。这展示了我们在xAI方面以卓越的效率训练LLM模型所取得的快速进展。由于这些基准测试可以在网络上找到，我们不能排除我们的模型无意中是在这些基准测试上进行训练的，因此我们对我们的模型（以及Claude-2和GPT-4）进行了手动评分，评估的是2023年5月底发布的匈牙利国家高中数学期末考试，这是在我们收集数据集之后发布的。Grok在考试中获得了C（59%），而Claude-2获得了相同的成绩（55%），GPT-4获得了B（68%）。所有模型都在温度为0.1且相同的提示下进行评估。值得注意的是，我们没有为这次评估进行任何调整。这个实验是对我们的模型从未明确调整过的数据集进行的“现实生活”测试。我们在模型卡中提供了Grok-1的重要技术细节摘要。 xAI的工程技术在深度学习研究的前沿，可靠的基础设施必须像数据集和学习算法一样慎重构建。为了创建Grok，我们基于Kubernetes、Rust和JAX构建了一个定制的训练和推理框架。 LLM培训就像一辆疾驰的货运火车，如果其中一节车厢出轨，整个火车都会脱轨，使得重新恢复正常运行变得困难。GPU的故障方式多种多样：制造缺陷、松动的连接、配置错误、降级的内存芯片、偶发的随机位翻转等等。在训练过程中，我们需要在数万个GPU之间进行计算同步，而由于规模的扩大，所有这些故障模式都变得更加频繁。为了克服这些挑战，我们采用了一套自定义的分布式系统，确保每一种故障都能立即被识别并自动处理。在xAI，我们将最大化每瓦有用计算作为我们努力的重点。在过去几个月中，我们的基础设施使我们能够将停机时间降至最低，并在硬件不可靠的情况下保持高模型浮点运算利用率（MFU）。 Rust已被证明是构建可扩展、可靠和易维护基础设施的理想选择。它提供高性能、丰富的生态系统，并防止了分布式系统中通常会遇到的大多数错误。考虑到我们团队规模较小，基础设施的可靠性至关重要，否则维护将会抑制创新。Rust让我们有信心，任何代码修改或重构都有可能产生可运行数月且需要最少监督的程序。我们现在正在为我们下一次模型能力的跃升做准备，这将需要可靠地协调数万个加速器上的训练运行，运行互联网规模的数据管道，并将新的能力和工具集成到Grok中。如果这听起来令人兴奋，请申请加入我们的团队。 xAI的研究我们为Grok提供了搜索工具和实时信息的访问权限，但是像所有基于下一个标记预测训练的LLM一样，我们的模型仍然可能生成错误或矛盾的信息。我们相信实现可靠的推理是解决当前系统限制的最重要的研究方向。在这里，我们想要强调一些在xAI最令人兴奋的有前途的研究方向。 - 可扩展的工具辅助监督。人类反馈至关重要。然而，在处理冗长的代码或复杂的推理步骤时，提供一致准确的反馈可能具有挑战性。人工智能可以通过查找不同来源的参考资料、使用外部工具验证中间步骤，并在必要时寻求人类反馈来协助可扩展的监督。我们的目标是在我们的模型的帮助下，最有效地利用我们的人工智能导师的时间。 - 将正式验证与安全性、可靠性和基础结合起来。为了创建能够深入思考现实世界的AI系统，我们计划在较少歧义和更可验证的情况下开发推理能力。这使我们能够在没有人类反馈或与现实世界的互动的情况下评估我们的系统。这种方法的一个主要即时目标是为代码正确性提供正式保证，特别是关于AI安全的可验证方面。 - 长上下文理解和检索。训练模型以高效地在特定上下文中发现有用的知识是打造真正智能系统的核心。我们正在研究能够在需要时发现和检索信息的方法。 - 对抗性鲁棒性。对抗性示例表明，优化器可以轻易地利用人工智能系统的漏洞，无论是在训练还是服务期间，从而导致系统犯下严重错误。这些漏洞是深度学习模型长期存在的弱点。我们特别关注提高LLMs、奖励模型和监控系统的鲁棒性。 - 多模态能力。目前，Grok没有其他感官，比如视觉和听觉。为了更好地帮助用户，我们将为Grok配备这些不同的感官，以实现更广泛的应用，包括实时互动和协助。我们相信人工智能对于为社会做出重大科学和经济贡献具有巨大潜力，因此我们将努力开发可靠的防范措施，以防止恶意使用带来的灾难性后果。我们坚信要尽最大努力确保人工智能始终成为一种正能量。如果你和我们一样乐观，并且想为我们的使命做出贡献，请申请加入我们的团队。 Grok的早期访问我们正在向美国地区的一部分用户提供机会，让他们尝试我们的Grok原型，并提供宝贵的反馈意见，以帮助我们在正式发布之前改进其功能。您可以在这里加入Grok的等待列表。这次发布只是xAI的第一步。展望未来，我们有一个令人兴奋的路线图，并将在未来几个月推出新的功能和特性。

在Telegram中查看

相关推荐

马斯克 xAI 展示首个多模态模型 Grok-1.5V：可将流程图转成 Python 代码

马斯克 xAI 展示首个多模态模型 Grok-1.5V：可将流程图转成 Python 代码马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后，近日再次推出首个多模态模型。 xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision（Grok-1.5V），不仅能理解文本，还能处理文档、图表、截图和照片中的内容。Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型。 xAI 在官方新闻稿中演示了 7 个 Grok-1.5V 案例，，包括将白板上的流程图草图转化为 Python 代码、根据孩子的绘画生成睡前故事、解释流行语、将表格转化为 CSV 文件格式等等。来源，频道：@kejiqu 群组：@kejiquchat

是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输

是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输出预测。该基准测试包括800个Python函数和输入输出对，最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练，但仅达到了47%和44%的准确率。该基准测试强调了代码推理能力的重要性，并鼓励未来的代码语言模型评估考虑CRUXEval。

马斯克用行动反击开源自家顶级大模型压力给到OpenAI

马斯克用行动反击开源自家顶级大模型压力给到OpenAI 有意思的是，Grok-1宣布开源的封面图为Midjourney生成，可谓“AI helps AI”。一直吐槽OpenAI不open的马斯克，自然要在社交平台上含沙射影一番，“我们想了解更多OpenAI的开放部分。”Grok-1遵照Apache 2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今，已经在GitHub上揽获6.5k星标，热度还在持续增加。项目说明中明确强调，由于Grok-1是一个规模较大（314B参数）的模型，需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。此外，该存储库中MoE层的实现效率并不高，之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说，发布开源模型有助于社区展开大规模的测试和反馈，意味着模型本身的迭代速度也能加快。Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型，由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程：在宣布成立xAI之后，相关研究人员首先训练了一个330亿参数的原型语言模型（Grok-0），这个模型在标准语言模型测试基准上接近LLaMA2（70B）的能力，但使用了更少的训练资源；之后，研究人员对模型的推理和编码能力进行了重大改进，最终开发出了Grok-1并于2023年11月发布，这是一款功能更为强大的SOTA语言模型，在HumanEval编码任务中达到了63.2%的成绩，在MMLU中达到了73%，超过了其计算类中的所有其他模型，包括ChatGPT-3.5和Inflection-1。与其他大模型相比，Grok-1的优势在哪呢？xAI特别强调，Grok-1是他们自己从头训练的大模型，即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练，没有针对特定任务（如对话）进行微调；Grok-1的一个独特而基本的优势是，它可以通过X平台实时了解世界，这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据；3140亿参数的Mixture-of-Experts模型，其对于每个token，活跃权重比例为25%，这一庞大的参数量为其提供了强大的语言理解和生成能力。xAI此前介绍，Grok-1将作为Grok背后的引擎，用于自然语言处理任务，包括问答、信息检索、创意写作和编码辅助。未来，长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。 ... PC版：手机版：

马斯克说到做到 Grok遵照Apache 2.0协议开放模型权重和架构

马斯克说到做到 Grok遵照Apache 2.0协议开放模型权重和架构 Grok-1是一个混合专家（Mixture-of-Experts，MOE）大模型，这种MOE架构重点在于提高大模型的训练和推理效率，形象地理解，MOE就像把各个领域的“专家”集合到了一起，遇到任务派发给不同领域的专家，最后汇总结论，提升效率。决定每个专家做什么的是被称为“门控网络”的机制。xAI已经将Grok-1的权重和架构在GitHub上开源。目前Grok-1的源权重数据大小大约为300GB。截至北京时间3月18日上午7时许，Grok-1项目收获了3400颗星。Grok-1是马斯克xAI自2023年7月12日成立以来发布的首个自研大模型。xAI特别强调说这是他们自己从头训练的大模型。Grok-1没有针对特定应用进行微调。xAI是马斯克去年刚刚成立的明星AI创企，其目的之一就是与OpenAI、Google、微软等对手在大模型领域进行竞争，其团队来自OpenAI、GoogleDeepMind、Google研究院、微软研究院等诸多知名企业和研究机构。此前马斯克刚刚“怒喷”OpenAI不够“Open”，后脚这就开源了自家的顶级3410亿参数自研大模型Grok-1。虽然马斯克在预热到发布的过程中也“放了几次鸽子”，但最终他并没有食言。今天，xAI还公布了Grok-1的更多细节：基础模型基于大量文本数据训练，未针对特定任务进行微调。3140亿参数的Mixture-of-Experts模型，其对于每个token，活跃权重比例为25%。xAI从2023年10月开始使用自定义训练堆栈在JAX和Rust之上从头开始训练。但此次xAI并没有放出Grok-1的具体测试成绩，其与OpenAI即将发布的GPT-5的大模型王者之战，必将成为业内关注的焦点。当然，马斯克发大模型，怎么会少的了大佬隔空对线“互怼”？xAI官方消息刚刚发布，ChatGPT的官方账号马上就跟马斯克在X平台上进行了互动，在Grok官方账号评论下回复道：“偷了我的笑话。”马斯克自然不会示弱，马上说请告诉我OpenAI“Open”之处在哪里。马斯克高仿号也马上跑过来添油加醋，说我们都知道是Sam在运营ChatGPT的账号。值得一提的是，此次xAI发布Grok-1消息的封面图片，是由Midjourney生成，Grok给出了提示文本：一个神经网络的3D插图，具有透明节点和发光连接，展示不同粗细和颜色的连接线的不同权重（A 3D illustration of a neural network, with transparent nodes and glowing connections, showcasing the varying weights as different thicknesses and colors of the connecting lines）。原图： ... PC版：手机版：

xAI旗下聊天机器人Grok被指窃取OpenAI代码库并复制ChatGPT回应

xAI旗下聊天机器人Grok被指窃取OpenAI代码库并复制ChatGPT回应上周五，安全测试员贾克斯·温特伯恩（Jax Winterbourne）在X平台上发布了一张Grok拒绝用户请求时的截图。Grok表示：“我恐怕无法满足这个请求，因为这违反了OpenAI的用例政策。” Grok的这一回复完全抄袭了ChatGPT和GPT-4在类似情况下使用的标准免责声明。对此，xAI工程师Igor Babuschkin解释道，Grok在训练过程中使用了大量网络数据，其中很可能包含由OpenAI生成的文本。他还称：“这个问题非常罕见，我们已经意识到了它，并将确保未来的Grok版本不会出现类似的问题。请放心，Grok的开发没有使用任何OpenAI代码。” Grok出现的这一尴尬“幻觉”在社交媒体上引起了热议，其中一些人指责Grok只是利用OpenAI来回答问题，而另一些人则说xAI实际上并没有自己的聊天机器人。来源，频道：@kejiqu 群组：@kejiquchat

正式宣布：xAI 的Grok来了！Elon Musk 说它的终极目标是为了人类的理解～

正式宣布：xAI 的Grok来了！Elon Musk 说它的终极目标是为了人类的理解～ Grok 是一款仿照《银河系漫游指南》设计的人工智能，可以回答几乎任何问题，更难能可贵的是，它还能建议你问什么问题！ Grok 在回答问题时略带诙谐和反叛，因此如果你讨厌幽默，请不要使用它！ Grok 的一个独特而基本的优势是，它可以通过平台实时了解世界。它还能回答被大多数其他人工智能系统拒绝的辛辣问题。 Grok 仍然是一个非常早期的测试版产品我们只能通过两个月的训练来达到最好的效果因此，希望在您的帮助下，它能在每周的测试中迅速改进。 xAI 团队官方全文如下：为什么我们要建立Grok 在xAI，我们希望创建能够帮助人类追求理解和知识的人工智能工具。通过创建和改进Grok，我们的目标是： - 收集反馈并确保我们正在构建最大程度地惠益全人类的人工智能工具。我们认为设计对所有背景和政治观点的人都有用的人工智能工具非常重要。我们还希望根据法律赋予用户使用我们的人工智能工具的权力。我们在Grok上的目标是在公众面前探索和展示这种方法。 - 赋予研究和创新能力：我们希望Grok能成为任何人的强大研究助手，帮助他们快速获取相关信息、处理数据并提出新的想法。我们的终极目标是让我们的人工智能工具帮助人们加深理解。前往Grok-1的旅程 Grok的引擎是我们在过去四个月中开发的前沿LLMGrok-1。在这段时间里，Grok-1经历了许多迭代。在宣布xAI之后，我们训练了一个拥有330亿参数的原型LLM（Grok-0）。这个早期模型在标准的语言模型基准测试中接近LLaMA 2（700亿）的能力，但只使用了一半的训练资源。在过去的两个月中，我们在推理和编码能力方面取得了显著的改进，最终开发出了Grok-1，这是一款先进的语言模型，具有更强大的性能，人工评估编码任务达到63.2%，MMLU达到73%。为了了解我们在Grok-1上所做的能力改进，我们进行了一系列评估，使用了一些旨在衡量数学和推理能力的标准机器学习基准测试。 - GSM8k：《中学数学应用题》（Cobbe等，2021），采用思维链提示。 - MMLU：多学科多项选择题（Hendrycks等，2021年）提供了5个示例，包含了上下文。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人