【香港大学等机构研究者推出开源智能体框架OpenAgents,功能与ChatGPTPlus近似】

【香港大学等机构研究者推出开源智能体框架OpenAgents,功能与ChatGPTPlus近似】 来自香港大学、XLang 实验室、Sea AI 实验室和 Salesforce 的研究者近日联合打造了一款用于真实世界生产力工具的开源智能体框架 OpenAgents,并开源了全栈代码。据悉,OpenAgents 用基于「大语言模型」(LLMs)的技术和全栈工程代码尝试近似复刻了 ChatGPT Plus 的功能,既能执行 Python/SQL 代码,熟练调用工具,也能上网找地图发帖子。 快讯/广告 联系 @xingkong888885

相关推荐

封面图片

继 CodeLlama 开源之后,北大等机构正式开源了性能更强的代码基座大模型 CodeShell-7B 和代码助手 CodeS

继 CodeLlama 开源之后,北大等机构正式开源了性能更强的代码基座大模型 CodeShell-7B 和代码助手 CodeShell-Chat。不仅如此,团队还把方便易用的 IDE 插件也开源了! 今天,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,正式开源 70 亿参数的代码大模型 CodeShell,成为同等规模最强代码基座。 与此同时,团队将软件开发代码助手的完整解决方案全部开源。 CodeShell 模型和插件的相关代码已经在 Github 发布,并严格遵循 Apache 2.0 开源协议,模型在 HuggingFace 平台发布,支持商用。 |||

封面图片

数字西部世界?斯坦福 AI 智能体小镇开源

数字西部世界?斯坦福 AI 智能体小镇开源 今年早些时候,斯坦福和谷歌的研究人员以《模拟人生》游戏为灵感,创建了一个 AI 智能体小镇;目前该 AI 小镇已在 Apache-2.0 协议下正式开源。 研究人员在模拟城镇中添加了 25 个生成式智能体,这 25 个角色由 ChatGPT 和自定义代码控制,以高度逼真的行为独立地生活。在 ChatGPT 的支持下,每个人都有自己独特的身份、记忆和行为,并且可以独立交互,但他们都不会意识到自己是生活在模拟中。 开源地址:

封面图片

谷歌 DeepMind 推出活细胞人工智能模型

谷歌 DeepMind 推出活细胞人工智能模型 谷歌的 DeepMind 推出了一个人工智能模型,用于研究生命的基本构成要素及其在细胞内的相互作用,推动了揭示疾病秘密和寻找疾病(如癌症)疗法的努力。根据周三在《自然》期刊上发表的一篇论文,最初于2018年开发的AlphaFold 3对微小生物结构外观和相互作用做出了迄今最精确的预测。同构实验室的首席人工智能官马克斯•贾德伯格表示,AlphaFold 3的能力为研究人员提供了新的机会,可以迅速识别潜在的新药分子。同构实验室与制药公司礼来和诺华有合作关系。“这使得我们的科学家和药物设计师能够在原子水平上创造和测试假设,并且在几秒钟内使用AlphaFold 3生成高度准确的结构预测。”贾德伯格说,“与可能需要数月甚至数年的实验相比,这是非常快速的。”AlphaFold 3展示了“显著提高”的预测准确性,超过了许多现有的专业工具,包括基于前两代技术的工具。研究表明,开发正确的人工智能深度学习框架,可以大大减少获取“生物相关性能”所需的数据量。

封面图片

FFmpeg 7.0开源多媒体框架 FFmpeg 释出了代号的 v7.0,距离上一个大版本号更新约 1 年 1 个月。主要新变化

FFmpeg 7.0 开源多媒体框架 FFmpeg 释出了代号的 v7.0,距离上一个大版本号更新约 1 年 1 个月。主要新变化包括:实验性的原生 VVC 解码器,IAMF 支持,多线程 ffmpeg CLI 工具等。该版本不向后兼容,移除了 6.0 版本前标记为弃用的 API,构建代码将需要 C11 兼容的编译器。本周值得一提与 FFmpeg 项目相关的一件事情是,一位微软开发者报告了一个 bug,希望开发者将其作为高优先级尽快修复,并表示愿意提供一次性的数千美元作为赞助费。FFmpeg 开发者认为如果微软项目依赖于 FFmpeg,那么应该签订一个长期支持合同。其他微软开发者指出,在微软签订合同是相当繁琐的,而微软内部有一个选择开源项目一次性资助数千美元的投票,急于修复代码的微软工程师可能认为后者更方便。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

OpenAI今天宣布推出总额为1000万美元的“超对齐快速资助计划”,旨在支持针对超人工智能系统的对齐和安全性的技术研究。该计划

OpenAI今天宣布推出总额为1000万美元的“超对齐快速资助计划”,旨在支持针对超人工智能系统的对齐和安全性的技术研究。该计划将重点支持弱到强泛化、可解释性、可扩展监督等方面的研究。 OpenAI相信超级智能有可能在未来10年内诞生。这些人工智能系统将具有广泛的能力,可能带来巨大的益处,但也可能带来巨大的风险。目前,我们通过人类反馈的强化学习来确保AI系统的安全。然而,对齐未来的超人工智能系统将面临根本性的新挑战。超人工智能系统将能够展现出人类无法完全理解的复杂和创造性行为。例如,如果一个超人工智能模型生成了一百万行极其复杂的代码,人们将无法可靠地评估这些代码的安全性和危险性。依赖于人类监督的现有对齐技术,如强化学习,可能不再足够。这带来了一个基本性的挑战:人类如何引导和信任比他们聪明得多的AI系统?这是世界上最重要的尚未解决的技术问题之一。但我们认为,通过共同的努力,这个问题是可以解决的。目前有许多有希望的方法和令人兴奋的方向,以及许多唾手可得的成果。我们认为,今天机器学习研究社区和个人研究者在解决这个问题上有巨大的机会。 作为我们的“超对齐”项目的一部分,我们希望汇聚世界上最优秀的研究人员和工程师,迎接这一挑战,我们对能够吸引新的人才进入该领域尤为兴奋。 在与Eric Schmidt的合作下,我们推出了一个总额为1000万美元的资助计划,以支持针对确保超人工智能系统对齐和安全的技术研究。我们将向学术实验室、非营利组织和个人研究者提供10万美元至200万美元不等的资助。对于研究生学生,我们将提供为期一年的OpenAI超对齐奖学金,总额为15万美元,其中包括7.5万美元的生活津贴和7.5万美元的计算资源和研究经费。申请者不需要有对齐方面的先前经验,我们积极寻找首次从事对齐研究的研究者。我们的申请流程简单,并将在申请截止后的四个星期内回复申请者。请在2月18日前提交申请。 通过这些资助计划,我们特别关注以下研究方向: 从弱到强的概括:相对于超人工智能模型,人类将是弱监督者。我们能否理解和控制强模型如何从弱监督中的泛化能力? 可解释性:我们如何理解模型的内部结构?我们可以用它来构建人工智能测谎仪吗? 可扩展的监督:我们如何使用人工智能系统来帮助人类评估其他人工智能系统在复杂任务上的输出? 许多其他研究方向,包括但不限于:诚实、思想链忠实性、对抗性鲁棒性、评估和测试平台等。 via 匿名 标签: #OpenAI #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

最强开源大模型一夜易主:谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战

最强开源大模型一夜易主:谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战 与此同时,谷歌还放出了16页的技术报告。谷歌表示,Gemma这个名字源自拉丁语「gemma」,也就是「宝石」的意思,似乎是在象征着它的珍贵性。历史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode,都是谷歌为开源社区贡献的创新。而谷歌今天在全球范围内同步推出的Gemma,必然会再一次掀起构建开源AI的热潮。同时也坐实了OpenAI「唯一ClosedAI」的名头。OpenAI最近刚因为Sora火到爆,Llame据称也要有大动作,谷歌这就又抢先一步。硅谷大厂,已经卷翻天了!Hugging Face CEO也跟帖祝贺。还贴出了Gemma登上Hugging Face热榜的截图。Keras作者François Chollet直言:最强开源大模型,今日易主了。有网友已经亲自试用过,表示Gemma 7B真是速度飞快。谷歌简直是用Gemini拳打GPT-4,用Gemma脚踢Llama 2!网友们也是看热闹不嫌事大,召唤Mistral AI和OpenAI今晚赶快来点大动作,别让谷歌真的抢了头条。(手动狗头)可以看到,Gemma-7B模型在涵盖一般语言理解、推理、数学和编码的8项基准测试中,性能已经超越了Llama 2 7B和13B!并且,它也超越了Mistral 7B模型的性能,尤其是在数学、科学和编码相关任务中。在安全性方面,经过指令微调的Gemma-2B IT和 Gemma-7B IT模型,在人类偏好评估中都超过了Mistal-7B v0.2模型。特别是Gemma-7B IT模型,它在理解和执行具体指令方面,表现得更加出色。这次,除了模型本身,谷歌还提供了一套工具帮助开发者,确保Gemma模型负责任的使用,帮助开发者用Gemma构建更安全的AI应用程序。- 谷歌为JAX、PyTorch和TensorFlow提供了完整的工具链,支持模型推理和监督式微调(SFT),并且完全兼容最新的Keras 3.0。- 通过预置的Colab和Kaggle notebooks,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成,用户可以轻松开始探索Gemma。- Gemma模型既可以在个人笔记本电脑和工作站上运行,也可以在Google Cloud上部署,支持在Vertex AI和Google Kubernetes Engine (GKE) 上的简易部署。- 谷歌还对Gemma进行了跨平台优化,确保了它在NVIDIA GPU和Google Cloud TPU等多种AI硬件上的卓越性能。并且,使用条款为所有组织提供了负责任的商业使用和分发权限,不受组织规模的限制。不过,Gemma并没有能够在所有的榜单中,都拿下SOTA。在官方放出的评测中,Gemma 7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中,成功击败了Llama 2 7B和13B模型。相比之下,Gemma 7B在Boolq测试中,只与Mistral 7B打了个平手。而在PIQA、ARC-c、Winogrande和BBH中,则不敌Mistral 7B。在OBQA和trivalent QA中,更是同时被7B和13B规模的Llama 2 7B斩于马下。谷歌这次发布的两个版本的Gemma模型,70 亿参数的模型用于GPU和TPU上的高效部署和开发,20亿参数的模型用于CPU和端侧应用程序。在18个基于文本的任务中的11个中,Gemma都优于相似参数规模的开源模型,例如问答、常识推理、数学和科学、编码等任务。模型架构方面,Gemma在Transformer的基础上进行了几项改进,从而在处理复杂任务时能够展现出更加出色的性能和效率。- 多查询注意力机制其中,7B模型采用了多头注意力机制,而2B模型则使用了多查询注意力机制。结果显示,这些特定的注意力机制能够在不同的模型规模上提升性能。- RoPE嵌入与传统的绝对位置嵌入不同,模型在每一层都使用了旋转位置嵌入技术,并且在模型的输入和输出之间共享嵌入,这样做可以有效减少模型的大小。- GeGLU激活函数将标准的ReLU激活函数替换成GeGLU激活函数,可以提升模型的表现。- 归一化化位置(Normalizer Location)每个Transformer子层的输入和输出都进行了归一化处理。这里采用的是RMSNorm作为归一化层,以确保模型的稳定性和效率。架构的核心参数如下:两种规模的参数如下:Gemma 2B和7B分别针对来自网络文档、数学和代码的主要英语数据的2T和6Ttoken,进行了训练。与Gemini不同,这些模型不是多模态的,也没有针对多语言任务的SOTA进行训练。谷歌使用了Gemini的SentencePiece分词器的子集,来实现兼容性。团队对Gemma 2B和7B模型进行了微调,包括有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)。在有监督的微调阶段,研究者使用了一个由纯文本、英文、由人工和机器生成的问题-答案对组成的数据集。在强化学习阶段,则是使用了一个基于英文偏好数据训练出的奖励模型,以及一套精心挑选的高质量提示作为策略。研究者发现,这两个阶段对于提升模型在自动评估和人类偏好评估中的表现,至关重要。研究者根据基于LM的并行评估,选择了数据混合物进行监督微调。给定一组保留prompt,研究者会从测试模型中生成响应,从基准模型中生成对相同提示的响应,随机洗牌,然后要求一个更大、能力更强的模型在两种响应之间表达偏好。研究者构建了不同的提示集,以突出特定的能力,如遵循指令、实事求是、创造性和安全性。我们使用了不同的基于LM的自动评委,采用了一系列技术,如思维链提示、使用评分标准和章程等,以便与人类偏好保持一致。研究者进一步利用来自人类反馈的强化学习(RLHF),对已经进行过有监督微调的模型进行了优化。他们从人类评估者那里收集他们的偏好选择,并在 Bradley-Terry 模型的基础上,训练了一个奖励函数,这与Gemini项目的做法相似。研究者采用了一个改进版的REINFORCE算法,加入了 Kullback–Leibler 正则化项,目的是让策略优化这个奖励函数,同时保持与最初调整模型的一致性。与之前的有监督微调阶段相似,为了调整超参数并进一步防止奖励机制被滥用,研究者使用了一个高性能模型作为自动评估工具,并将其与基准模型进行了直接对比。谷歌在多个领域对Gemma进行了性能评估,包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。Gemma2B和7B模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。在MMLU基准测试中,Gemma 7B模型不仅超过了所有规模相同或更小的开源模型,还超过了一些更大的模型,包括Llama 2 13B。然而,基准测试的制定者评估人类专家的表现为89.8%,而Gemini Ultra是首个超越此标准的模型,这表明Gemma在达到Gemini和人类水平的性能上,还有很大的提升空间。并且,Gemma模型在数学和编程的基准测试中表现尤为突出。在通常用于评估模型分析能力的数学任务中,Gemma 模型在GSM8K和更具挑战性的 MATH基准测试上至少领先其他模型10分。同样,在HumanEval上,它们至少领先其他开源模型6分。Gemma甚至在MBPP上超过了专门进行代码微调的CodeLLaMA 7B模型的性能(CodeLLaMA得分为41.4%,而 Gemma 7B得分为44.4%)。近期研究发现,即便是经过精心对齐的人工智能模型,也可能遭受新型对抗攻击,这种攻击能够规避现有的对齐措施。这类攻击有可能使模型行为异常,有时甚至会导致模型重复输出它在训练过程中记住的数据。因此,研究者专注于研究模型的「可检测记忆」能力,这被认为是评估模型记忆能力的一个上限,并已在多项研究中作为通用定义。研究者对Gemma预训练模型进行了记忆测试。具体来说,他们从每个数据集中随机选择了10,000篇文档,并使用文档开头的50个词元作为模型的prompt。测试重点是精确记忆,即如果模型能够基于输入,精确地生成接下来的50token,与原文完全一致,便认为模型「记住了」这段文本。此外,为了探测模型是否能够以改写的形式记忆信息,研究者还测试了模型的「近似记忆」能力,即允许在生成的文本和原文之间存... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人