CRUXEval是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,

是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输出预测。该基准测试包括800个Python函数和输入输出对,最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass@1分别达到67%和63%。尽管CodeLlama34B等模型在大量代码数据上进行了训练,但仅达到了47%和44%的准确率。该基准测试强调了代码推理能力的重要性,并鼓励未来的代码语言模型评估考虑CRUXEval。

相关推荐

封面图片

- HumanEval:Python代码补全任务,(Chen等人,2021),零-shot评估通过率@1。

-HumanEval:Python代码补全任务,(Chen等人,2021),零-shot评估通过率@1。-数学:中学和高中的数学问题以LaTeX格式编写,(Hendrycks等,2021),使用固定的4个提示进行提示。在这些基准测试中,Grok-1展现出了强大的结果,超过了其所属计算级别中的所有其他模型,包括ChatGPT-3.5和Inflection-1。它只被那些使用了大量训练数据和计算资源进行训练的模型所超越,比如GPT-4。这展示了我们在xAI方面以卓越的效率训练LLM模型所取得的快速进展。由于这些基准测试可以在网络上找到,我们不能排除我们的模型无意中是在这些基准测试上进行训练的,因此我们对我们的模型(以及Claude-2和GPT-4)进行了手动评分,评估的是2023年5月底发布的匈牙利国家高中数学期末考试,这是在我们收集数据集之后发布的。Grok在考试中获得了C(59%),而Claude-2获得了相同的成绩(55%),GPT-4获得了B(68%)。所有模型都在温度为0.1且相同的提示下进行评估。值得注意的是,我们没有为这次评估进行任何调整。这个实验是对我们的模型从未明确调整过的数据集进行的“现实生活”测试。我们在模型卡中提供了Grok-1的重要技术细节摘要。xAI的工程技术在深度学习研究的前沿,可靠的基础设施必须像数据集和学习算法一样慎重构建。为了创建Grok,我们基于Kubernetes、Rust和JAX构建了一个定制的训练和推理框架。LLM培训就像一辆疾驰的货运火车,如果其中一节车厢出轨,整个火车都会脱轨,使得重新恢复正常运行变得困难。GPU的故障方式多种多样:制造缺陷、松动的连接、配置错误、降级的内存芯片、偶发的随机位翻转等等。在训练过程中,我们需要在数万个GPU之间进行计算同步,而由于规模的扩大,所有这些故障模式都变得更加频繁。为了克服这些挑战,我们采用了一套自定义的分布式系统,确保每一种故障都能立即被识别并自动处理。在xAI,我们将最大化每瓦有用计算作为我们努力的重点。在过去几个月中,我们的基础设施使我们能够将停机时间降至最低,并在硬件不可靠的情况下保持高模型浮点运算利用率(MFU)。Rust已被证明是构建可扩展、可靠和易维护基础设施的理想选择。它提供高性能、丰富的生态系统,并防止了分布式系统中通常会遇到的大多数错误。考虑到我们团队规模较小,基础设施的可靠性至关重要,否则维护将会抑制创新。Rust让我们有信心,任何代码修改或重构都有可能产生可运行数月且需要最少监督的程序。我们现在正在为我们下一次模型能力的跃升做准备,这将需要可靠地协调数万个加速器上的训练运行,运行互联网规模的数据管道,并将新的能力和工具集成到Grok中。如果这听起来令人兴奋,请申请加入我们的团队。xAI的研究我们为Grok提供了搜索工具和实时信息的访问权限,但是像所有基于下一个标记预测训练的LLM一样,我们的模型仍然可能生成错误或矛盾的信息。我们相信实现可靠的推理是解决当前系统限制的最重要的研究方向。在这里,我们想要强调一些在xAI最令人兴奋的有前途的研究方向。-可扩展的工具辅助监督。人类反馈至关重要。然而,在处理冗长的代码或复杂的推理步骤时,提供一致准确的反馈可能具有挑战性。人工智能可以通过查找不同来源的参考资料、使用外部工具验证中间步骤,并在必要时寻求人类反馈来协助可扩展的监督。我们的目标是在我们的模型的帮助下,最有效地利用我们的人工智能导师的时间。-将正式验证与安全性、可靠性和基础结合起来。为了创建能够深入思考现实世界的AI系统,我们计划在较少歧义和更可验证的情况下开发推理能力。这使我们能够在没有人类反馈或与现实世界的互动的情况下评估我们的系统。这种方法的一个主要即时目标是为代码正确性提供正式保证,特别是关于AI安全的可验证方面。-长上下文理解和检索。训练模型以高效地在特定上下文中发现有用的知识是打造真正智能系统的核心。我们正在研究能够在需要时发现和检索信息的方法。-对抗性鲁棒性。对抗性示例表明,优化器可以轻易地利用人工智能系统的漏洞,无论是在训练还是服务期间,从而导致系统犯下严重错误。这些漏洞是深度学习模型长期存在的弱点。我们特别关注提高LLMs、奖励模型和监控系统的鲁棒性。-多模态能力。目前,Grok没有其他感官,比如视觉和听觉。为了更好地帮助用户,我们将为Grok配备这些不同的感官,以实现更广泛的应用,包括实时互动和协助。我们相信人工智能对于为社会做出重大科学和经济贡献具有巨大潜力,因此我们将努力开发可靠的防范措施,以防止恶意使用带来的灾难性后果。我们坚信要尽最大努力确保人工智能始终成为一种正能量。如果你和我们一样乐观,并且想为我们的使命做出贡献,请申请加入我们的团队。Grok的早期访问我们正在向美国地区的一部分用户提供机会,让他们尝试我们的Grok原型,并提供宝贵的反馈意见,以帮助我们在正式发布之前改进其功能。您可以在这里加入Grok的等待列表。这次发布只是xAI的第一步。展望未来,我们有一个令人兴奋的路线图,并将在未来几个月推出新的功能和特性。https://x.ai/

封面图片

YATO,一个用于文本分析的开源 Python 库。特别是,YATO专注于序列标注和序列分类任务,包括广泛的基础 NLP 任务,

YATO,一个用于文本分析的开源Python库。特别是,YATO专注于序列标注和序列分类任务,包括广泛的基础NLP任务,例如词性标注、分块、NER、CCG超标注、情感分析和句子分类。YATO可以通过用户友好的配置和集成SOTA预训练的语言模型,例如BERT,来设计基于RNN和Transformer的特定模型。YATO是一个基于PyTorch的框架,可以灵活选择输入特征和输出结构。使用YATO设计神经序列模型完全可以通过配置文件进行配置,不需要任何代码工作。其之前的版本NCRF++已被ACL2018接受为演示论文。基于NCRF++的深度实验报告被COLING2018接受为最佳论文。与NCRF++相比,YATO的亮点在于对Pre-trainedLanguageModel和句子分类任务的支持。#机器学习#框架

封面图片

BiLLa: 开源的中英双语LLaMA模型,具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练,提升了理解和推理能

:开源的中英双语LLaMA模型,具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练,提升了中文理解和推理能力。在评测中,BiLLa在中英语言建模和推理任务上表现出色,优于其他模型,并与ChatGLM-6B相比在解题和代码得分方面更高。开发者可以使用BiLLa-7B-LLM和BiLLa-7B-SFT模型,并可通过提供的工具进行模型权重的还原和使用。评测结果显示,BiLLa在语言建模和各种问题类型上取得了良好的性能

封面图片

TACO(Topics in Algorithmic COde Generation dataset)是一个专注于算法代码生成的

(TopicsinAlgorithmicCOdeGenerationdataset)是一个专注于算法代码生成的数据集,旨在为代码生成模型领域提供更具挑战性的训练数据集和评估基准。该数据集由难度更大、更接近真实编程场景的编程竞赛题组成。它强调在实际应用场景中提高或评估模型的理解和推理能力,而不仅仅是实现预定义的函数功能。规模更大:TACO包括训练集(25,443个问题)和测试集(1,000个问题),使其成为当前可用的最大的代码生成数据集。更高质量:TACO数据集中的每个问题都旨在匹配一组不同的解决方案答案,答案大小高达1.55M。这保证了模型在训练过程中不易出现过拟合,并验证了评估结果的有效性。细粒度标签:TACO数据集中的每个问题都包含细粒度标签,例如任务主题、算法、技能和难度级别。这些标签为代码生成模型的训练和评估提供了更准确的参考。

封面图片

2023年值得关注的顶级Python库 | blog | #Python

2023年值得关注的顶级Python库#Python1.:一个简化大型语言模型(LLM)调用和嵌入调用的开源库,支持OpenAI格式,提供统一的输入输出格式,便于在不同模型间切换。2.:一个简化Python应用部署的工具,允许开发者创建自安装包,支持跨操作系统,并且具有自更新功能。3.:一个低代码Python库,专为数据科学家设计,用于构建交互式WebUI,无需掌握Web堆栈工具,支持机器学习产品的可视化。4.:专为AppleSilicon设计的机器学习数组框架,提供NumPy风格的API,支持自动微分、向量化和计算图优化。5.:一个全面的文本预处理工具包,能够处理多种格式的文档,如PDF、HTML和Word文档,提供清洗、格式化和信息提取功能。6.和:一个开源MLOps框架,用于创建可移植的生产就绪机器学习管道,以及AutoMLOps服务,用于生成、配置和部署集成CI/CD的MLOps管线。7.:OpenAI的Whisper模型的增强版本,提供更准确的时间戳和多说话人检测,以及更快的处理速度和更低的内存占用。8.:一个框架,允许开发者使用多个agent进行对话协作,以解决任务,类似于软件工程团队的协作。9.:一个用于指定结构和类型、验证和纠正大型语言模型输出的库,确保模型输出符合预期。10.:一个用于处理时间序列数据的库,支持多变量时间序列、事件日志和跨源事件流。这些库不仅展示了Python在AI领域的强大能力,也为开发者提供了更多样化的工具,以应对各种挑战。

封面图片

马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码

马斯克xAI展示首个多模态模型Grok-1.5V:可将流程图转成Python代码马斯克旗下人工智能公司xAI于3月下旬推出Grok-1.5大语言模型之后,近日再次推出首个多模态模型。xAI表示将于近期邀请早期测试者和现有的Grok用户测试Grok-1.5Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5V在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型。xAI在官方新闻稿中演示了7个Grok-1.5V案例,,包括将白板上的流程图草图转化为Python代码、根据孩子的绘画生成睡前故事、解释流行语、将表格转化为CSV文件格式等等。来源,频道:@kejiqu群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人