是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输

是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输出预测。该基准测试包括800个Python函数和输入输出对，最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练，但仅达到了47%和44%的准确率。该基准测试强调了代码推理能力的重要性，并鼓励未来的代码语言模型评估考虑CRUXEval。

在Telegram中查看

相关推荐

是一个用于 #推荐系统的#Python #框架（由 Python 3.7.4 和 Tensorflow 1.14+ 支持），

是一个用于 #推荐系统的#Python #框架（由 Python 3.7.4 和 Tensorflow 1.14+ 支持），其中实现了许多有影响力和最新的推荐模型。QRec 具有轻量级架构并提供用户友好的界面。它可以促进模型的实施和评估

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些任务涉及 33 种工具，包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块 | #数据集

：开源代码语言模型，包含了英语和中文两种语言版本的代码生成模型。

：开源代码语言模型，包含了英语和中文两种语言版本的代码生成模型。模型经过大规模训练，训练数据中87%为代码数据，13%为自然语言数据。模型大小提供1B、5.7B、6.7B、33B等多个版本，满足不同需求。模型在人工评估、多语言程序、MBPP、DS-1000等多个编程基准上均表现出色，在项目级代码补全、代码插入等任务有很好的效果。

- HumanEval：Python代码补全任务，（Chen等人，2021），零-shot评估通过率@1。

- HumanEval：Python代码补全任务，（Chen等人，2021），零-shot评估通过率@1。 - 数学：中学和高中的数学问题以LaTeX格式编写，（Hendrycks等，2021），使用固定的4个提示进行提示。在这些基准测试中，Grok-1展现出了强大的结果，超过了其所属计算级别中的所有其他模型，包括ChatGPT-3.5和Inflection-1。它只被那些使用了大量训练数据和计算资源进行训练的模型所超越，比如GPT-4。这展示了我们在xAI方面以卓越的效率训练LLM模型所取得的快速进展。由于这些基准测试可以在网络上找到，我们不能排除我们的模型无意中是在这些基准测试上进行训练的，因此我们对我们的模型（以及Claude-2和GPT-4）进行了手动评分，评估的是2023年5月底发布的匈牙利国家高中数学期末考试，这是在我们收集数据集之后发布的。Grok在考试中获得了C（59%），而Claude-2获得了相同的成绩（55%），GPT-4获得了B（68%）。所有模型都在温度为0.1且相同的提示下进行评估。值得注意的是，我们没有为这次评估进行任何调整。这个实验是对我们的模型从未明确调整过的数据集进行的“现实生活”测试。我们在模型卡中提供了Grok-1的重要技术细节摘要。 xAI的工程技术在深度学习研究的前沿，可靠的基础设施必须像数据集和学习算法一样慎重构建。为了创建Grok，我们基于Kubernetes、Rust和JAX构建了一个定制的训练和推理框架。 LLM培训就像一辆疾驰的货运火车，如果其中一节车厢出轨，整个火车都会脱轨，使得重新恢复正常运行变得困难。GPU的故障方式多种多样：制造缺陷、松动的连接、配置错误、降级的内存芯片、偶发的随机位翻转等等。在训练过程中，我们需要在数万个GPU之间进行计算同步，而由于规模的扩大，所有这些故障模式都变得更加频繁。为了克服这些挑战，我们采用了一套自定义的分布式系统，确保每一种故障都能立即被识别并自动处理。在xAI，我们将最大化每瓦有用计算作为我们努力的重点。在过去几个月中，我们的基础设施使我们能够将停机时间降至最低，并在硬件不可靠的情况下保持高模型浮点运算利用率（MFU）。 Rust已被证明是构建可扩展、可靠和易维护基础设施的理想选择。它提供高性能、丰富的生态系统，并防止了分布式系统中通常会遇到的大多数错误。考虑到我们团队规模较小，基础设施的可靠性至关重要，否则维护将会抑制创新。Rust让我们有信心，任何代码修改或重构都有可能产生可运行数月且需要最少监督的程序。我们现在正在为我们下一次模型能力的跃升做准备，这将需要可靠地协调数万个加速器上的训练运行，运行互联网规模的数据管道，并将新的能力和工具集成到Grok中。如果这听起来令人兴奋，请申请加入我们的团队。 xAI的研究我们为Grok提供了搜索工具和实时信息的访问权限，但是像所有基于下一个标记预测训练的LLM一样，我们的模型仍然可能生成错误或矛盾的信息。我们相信实现可靠的推理是解决当前系统限制的最重要的研究方向。在这里，我们想要强调一些在xAI最令人兴奋的有前途的研究方向。 - 可扩展的工具辅助监督。人类反馈至关重要。然而，在处理冗长的代码或复杂的推理步骤时，提供一致准确的反馈可能具有挑战性。人工智能可以通过查找不同来源的参考资料、使用外部工具验证中间步骤，并在必要时寻求人类反馈来协助可扩展的监督。我们的目标是在我们的模型的帮助下，最有效地利用我们的人工智能导师的时间。 - 将正式验证与安全性、可靠性和基础结合起来。为了创建能够深入思考现实世界的AI系统，我们计划在较少歧义和更可验证的情况下开发推理能力。这使我们能够在没有人类反馈或与现实世界的互动的情况下评估我们的系统。这种方法的一个主要即时目标是为代码正确性提供正式保证，特别是关于AI安全的可验证方面。 - 长上下文理解和检索。训练模型以高效地在特定上下文中发现有用的知识是打造真正智能系统的核心。我们正在研究能够在需要时发现和检索信息的方法。 - 对抗性鲁棒性。对抗性示例表明，优化器可以轻易地利用人工智能系统的漏洞，无论是在训练还是服务期间，从而导致系统犯下严重错误。这些漏洞是深度学习模型长期存在的弱点。我们特别关注提高LLMs、奖励模型和监控系统的鲁棒性。 - 多模态能力。目前，Grok没有其他感官，比如视觉和听觉。为了更好地帮助用户，我们将为Grok配备这些不同的感官，以实现更广泛的应用，包括实时互动和协助。我们相信人工智能对于为社会做出重大科学和经济贡献具有巨大潜力，因此我们将努力开发可靠的防范措施，以防止恶意使用带来的灾难性后果。我们坚信要尽最大努力确保人工智能始终成为一种正能量。如果你和我们一样乐观，并且想为我们的使命做出贡献，请申请加入我们的团队。 Grok的早期访问我们正在向美国地区的一部分用户提供机会，让他们尝试我们的Grok原型，并提供宝贵的反馈意见，以帮助我们在正式发布之前改进其功能。您可以在这里加入Grok的等待列表。这次发布只是xAI的第一步。展望未来，我们有一个令人兴奋的路线图，并将在未来几个月推出新的功能和特性。

：基于云运行时的 Python & JavaScript SDK，用于构建自定义代码解释器。它支持 LLM（如 OpenAI、C

：基于云运行时的 Python & JavaScript SDK，用于构建自定义代码解释器。它支持 LLM（如 OpenAI、Cohere 和 Anthropic）生成的代码块之间的状态共享，允许用户逐步执行代码，并支持图表输出等功能

tinyllm 是一个轻量级框架，用于大规模开发、调试和监控 LLM 和代理支持的应用程序。该库的主要目标是使代码尽可能简单和可

tinyllm 是一个轻量级框架，用于大规模开发、调试和监控 LLM 和代理支持的应用程序。该库的主要目标是使代码尽可能简单和可读，同时允许用户在生产中创建复杂的代理或 LLM 工作流程。 Function及其流式等价物FunctionStream是tinylm 中的核心类。它们旨在标准化和控制 LLM、ToolStore 以及流模式和其他方式下可扩展生产使用的任何相关调用。它提供了一种结构化方法来处理函数执行的各个方面，包括输入/输出验证、输出处理、错误处理、评估，同时保持代码可读。您可以在单个文件中创建一个具有自己的提示、LLM 模型和评估器的链。无需跳过许多类定义，也无需意大利面条式代码。任何其他库代理/链（langchain/llama-index...）也可以无缝导入为tinylm函数。 | #框架

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人