Galactica - 一个促进科学进步的开源语言模型

Galactica-一个促进科学进步的开源语言模型Galactica大型语言模型(LLM)正在用数百万条学术内容进行训练。它的目的是帮助研究界更好地管理"信息爆炸"。Galactica是由MetaAI与PaperswithCode合作开发的。该团队认为信息过载是科学进步的一个主要障碍。"研究人员被埋没在大量的论文中,越来越无法区分有意义的和无意义的"。PC版:https://www.cnbeta.com.tw/articles/soft/1332965.htm手机版:https://m.cnbeta.com.tw/view/1332965.htm

相关推荐

封面图片

谷歌 DeepMind 利用大型语言模型解决了一个长期困扰人类的数学难题

谷歌DeepMind利用大型语言模型解决了一个长期困扰人类的数学难题谷歌DeepMind利用一大型语言模型成功破解了一项著名的未解数学难题。研究人员发表在《自然》杂志上的一篇中表示,这是首次使用大型语言模型发现长期科学难题的解决方案,产生了可验证且有价值的新信息,这些信息之前并不存在。“这不在训练数据中,甚至以前都不知道,”谷歌DeepMind研究副总裁PushmeetKohli说道。它结合了一个名为Codey的大型语言模型,这是Google的PaLM2的一个版本,经过对计算机代码进行了精细调整,还与其他系统结合使用,拒绝不正确或荒谬的答案,并将正确的答案重新插入其中。经过数百万次建议和几十次总体过程的重复——这花了几天的时间——FunSearch能够提出代码,产生了一个正确且以前未知的解决方案,解决了capset问题,涉及找到某一类型集合的最大大小。——

封面图片

Google计划建立巨型人工智能语言模型 支持全球1000种最常用的语言

Google计划建立巨型人工智能语言模型支持全球1000种最常用的语言语言和人工智能可以说一直是Google产品的核心,但最近机器学习的进步--特别是强大的、多功能的"大型语言模型"或LLM的开发--使这些领域得到了新的重视。Google已经开始将这些语言模型整合到Google搜索等产品中。但语言模型有许多缺陷,包括倾向于转述有害的社会偏见,如种族主义和仇外心理,以及无法以人类的敏感性来解析语言。在自己的研究人员发表了概述这些问题的论文后,Google自己也臭名昭著地解雇了他们。不过,这些模型能够完成许多任务,从语言生成(如OpenAI的GPT-3)到翻译(见Meta的"不遗漏语言"工作)。Google的"1000种语言计划"并不专注于任何特定的功能,而是要创建一个具有世界上各种语言的巨大知识广度的单一系统。Google人工智能研究副总裁ZoubinGhahramani说,该公司认为,创建一个如此规模的模型将使其更容易将各种人工智能功能带到在线空间和人工智能训练数据集中表现不佳的语言(也被称为"低资源语言")。"语言就像生物体,它们是相互演化而来的,它们有某些相似之处。通过让一个单一的模型接触并训练许多不同的语言,我们在低资源语言上得到更好的表现,"Ghahramani说。"我们达到1000种语言的方法不是通过建立1000种不同的模型。语言就像生物体,它们是相互进化的,它们有某些相似之处。而且,当我们将一种新语言的数据纳入我们的1000种语言模型,并获得将[它所学到的东西]从一种高资源语言转化为低资源语言的能力时,我们可以在我们所谓的零点学习中找到一些相当惊人的进展。"过去的研究显示了这种方法的有效性,而Google计划中的模型的规模可以提供比过去的工作更多的收益。这种大规模的项目已经成为科技公司主导人工智能研究雄心的典型,并利用了这些公司在获得大量计算能力和训练数据方面的独特优势。一个类似的项目是Facebook母公司Meta正在尝试建立一个"通用语音翻译器"。Google表示,为了支持1000种语言模型的工作,它将资助收集低资源语言的数据,包括音频记录和书面文本。该公司表示,它没有直接计划在哪里应用这个模型的功能--只是预计它将在Google的产品中具有一系列用途,从Google翻译到YouTube字幕等等。"同样的语言模型可以将机器人的命令变成代码;它可以解决数学问题;它也可以进行翻译。关于大型语言模型和一般的语言研究,真正有趣的事情之一是它们可以做很多很多不同的任务,"Ghahramani说。"语言模型真正有趣的地方在于它们正在成为大量知识的储存库,通过以不同的方式探测它们,你可以获得不同的有用功能。"Google在一个新的人工智能产品展示会上宣布了1000种语言模型。该公司还分享了关于文本到视频模型的新研究,一个名为Wordcraft的人工智能写作助手原型,以及对其人工智能测试厨房应用程序的更新,该应用程序允许用户有限地访问正在开发的人工智能模型,如其文本到图像模型Imagen。...PC版:https://www.cnbeta.com.tw/articles/soft/1331651.htm手机版:https://m.cnbeta.com.tw/view/1331651.htm

封面图片

因赛集团:是否与 Kimi 等国内闭源语言大模型深入合作尚需论证

因赛集团:是否与Kimi等国内闭源语言大模型深入合作尚需论证针对公司与月之暗面Kimi大模型是否有合作的问题,因赛集团在互动平台表示,InsightGPT是借鉴了多种开源大模型或算法、Paper以及自有行业数据和业务方法论进行融合并持续训练而成的营销行业多模态垂类模型,同时也会调用几个闭源大模型。月之暗面Kimi目前是公司调用的闭源大模型之一,其主要优势在于高效处理长文本的能力。经公司初步评测,其中文处理能力接近ChatGPT4Turbo。由于预计短期内Llama3、Grok等海外通用开源语言大模型在技术、资金等层面将持续领先于国内大模型,以及InsightGPT优先选择开源大模型与自有行业数据结合进行训练,是否与Kimi等国内闭源语言大模型尝试深入合作尚需详细论证。

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

封面图片

苹果发布 OpenELM 大语言模型,基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型,基于开源训练和推理框架的语言模型在WWDC24之前,苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为OpenELM。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的checkpoint和训练日志,以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

封面图片

Databricks开源DBRX高性能大语言模型

开源DBRX高性能大语言模型DBRX是Databricks开发的开源通用语言模型,在多项标准基准测试上达到了当前开源语言模型的最高水平。DBRX在多项综合基准测试中表现最好,尤其在编程和数学推理方面优于其他开源模型。与开源模型相比,DBRX在MMLU数据集上的表现也是最好的。根据测试,DBRX甚至超过了专门用于编程的CodeLLAMA-70B,并且与商业模型GPT-3.5相当甚至略胜。DBRX也与Gemini1.0Pro和MistralMedium等商业模型有竞争力。DBRX使用混合专家(MoE)架构,使其在训练和推理上更加高效。与类似参数量的非MoE模型相比,DBRX的推理吞吐量提高2-3倍。DBRX的整体训练效率比之前提高了近4倍,这得益于更好的数据、MoE架构以及其他改进。DBRX已经在Databricks的GenAI产品中进行了集成,客户可以通过API使用该模型。DBRX的训练代码和模型也在HuggingFace平台上开源。DBRX证明了Databricks可以高效地训练世界级的基础语言模型,也为企业训练自己的基础模型提供了能力。DBRX只是Databricks协助客户训练定制语言模型的一个例子。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人