Meta官宣深入AI大战推出先进大型语言模型

Meta官宣深入AI大战推出先进大型语言模型扎克伯格在社交媒体上称，FacebookAIResearch研发的LLaMA是“目前水平最高的”大型语言模型，目标是帮助研究人员推进他们在人工智能（AI）领域的工作。“大型语言模型”（LLM）可以消化大量的文本数据，并推断文本的单词之间的关系。随着计算能力的进步，以及输入数据集与参数空间的不断扩大，LLM的能力也相应提高。目前，LLM已经被证明能高效地执行多种任务，包括文本生成、问题回答、书面材料总结等。扎克伯格称，LLM在自动证明数学定理、预测蛋白质结构等更复杂的方面也有很大的发展前景。值得一提的是，近期大火的ChatGPT就是采用LLM构建的聊天机器人。ChatGPT由GPT3.5提供支持，而GPT3.5是一款基于OpenAI175B参数基础模型训练的LLM，175B是它从训练数据中所学习、沉淀下来的内容。Meta在官网介绍中称，LLaMA有7B、13B、33B和65B四个基础模型，在大多数基准测试中都优于GPT3.5的前身GPT3-175B，而LLaMA-65B可与业内最佳的Chinchilla-70B和PaLM-540B竞争。Meta还宣布，将针对学术研究者共享其模型，正在接受研究人员的申请。与之截然不同的是，Google旗下的DeepMind和OpenAI并不公开训练代码。根据2021年媒体的一份调查显示，AI专家们通常将DeepMind、OpenAI和FAIR（FacebookAIResearch）视为该领域的“前三甲”。去年年底，Meta发布了另一款名为Galactica的模型，但因经常分享偏见和不准确的信息而遭到下架。...PC版：https://www.cnbeta.com.tw/articles/soft/1346305.htm手机版：https://m.cnbeta.com.tw/view/1346305.htm

在Telegram中查看

相关推荐

Meta推出先进大型语言模型下一个ChatGPT不远了？

Meta推出先进大型语言模型下一个ChatGPT不远了？同ChatGPT、NewBing不同，LLaMA并不是一个任何人都可以与之对话的产品，也并未接入任何Meta应用。更为确切地说，该产品将是一个开源的“研究工具”。公司CEO扎克伯格在社交媒体上表示，LLaMA旨在帮助研究人员推进研究工作，LLM（大型语言模型）在文本生成、问题回答、书面材料总结，以及自动证明数学定理、预测蛋白质结构等更复杂的方面也有很大的发展前景。1、开源的“研究工具”Meta表示，LLaMA可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者，正在接受研究人员的申请。此外，LLaMA将提供底层代码供用户使用，因此用户可以自行调整模型，并将其用于与研究相关的用例。与之截然不同的是，Google旗下的DeepMind和OpenAI并不公开训练代码。该公司还表示，LLaMA作为一个基础模型被设计成多功能的，可以应用于许多不同的用例，而不是为特定任务设计的微调模型。2、比GPT3.5性能更强根据Meta官网介绍，LLaMA包含4个基础模型，参数分别为70亿、130亿、330亿和650亿。其中，LLaMA65B和LLaMA33B在1.4万亿个tokens上训练，而最小的模型LLaMA7B也经过了1万亿个tokens的训练。Meta表示，在大多数基准测试中，参数小的多的LLaMA-13B的性能优于GPT3.5的前身GPT3-175B，而LLaMA-65B更可与业内最佳的Chinchilla-70B和PaLM-540B竞争。值得一提的是，近期大火的ChatGPT便是由GPT3.5提供支持。Meta还提及，LLaMA-13B对算力的要求“低得多”，可以在单个数据中心级GPU（NVIDIATeslaV100）上运行。扎克伯格写道：“Meta致力于这种开放的研究模式，我们将向AI研究社区提供我们的新模型。”值得一提的是，去年5月，Meta也曾推出过大型语言模型OPT-175B。该项目同样也是针对研究人员的，这构成了其聊天机器人blenterbot新迭代的基础。后来，该公司还推出了一款名为“卡拉狄加”（Galactica）的模型，但因经常分享偏见和不准确的信息而遭到下架。据媒体报道，扎克伯格已将人工智能作为公司内部的首要任务，其本人也经常在财报电话会议和采访中谈论它对改进Meta产品的重要性。媒体分析称，虽然现在LLaMA没有在Meta产品中使用，但未来不排除使用的可能。...PC版：https://www.cnbeta.com.tw/articles/soft/1346389.htm手机版：https://m.cnbeta.com.tw/view/1346389.htm

Meta发布全新大型语言模型LLaMA，加入硅谷AI竞赛

Meta发布全新大型语言模型LLaMA，加入硅谷AI竞赛当地时间2月24日，Meta公司发布一款新的人工智能大型语言模型LLaMA，加入微软、谷歌等硅谷公司的竞赛。Meta首席执行官扎克伯格在Instagram表示，LLaMA模型旨在帮助研究人员推进工作，在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面“有很大的前景”。Meta表示，在大多数基准测试中，参数仅为十分之一的LLaMA-13B的性能优于OpenAI推出的GPT3(175B)，也即支持ChatGPT的GPT3.5的前身。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

【Meta和Microsoft联手推出开源大型语言模型Llama 2】

【Meta和Microsoft联手推出开源大型语言模型Llama2】2023年07月19日10点52分7月19日消息，Meta和Microsoft联手推出开源大型语言模型Llama2，将在Microsoft的Windows和云计算平台Azure上运行。Llama2免费用于研究和商业用途，同时还针对在Windows上运行进行了优化。Meta称Llama2接受的公开在线数据源的训练量比Llama1多40%，处理的上下文量是Llama1的两倍。

小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA

小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA2月24日，小扎官宣下场：我们有全新的SOTA大语言模型LLaMA了。划重点：和OpenAI的ChatGPT、Google的Bard不同，LLaMA这个AI并不是用来让我们聊天的，它是一个研究工具，Meta希望大家可以通过它，解决一直困扰大语言模型的一些问题。Meta会对非商用的研究用例开源LLaMA，并授予大学、非政府组织和行业实验室访问权限。看看，这么一对比，微软和Google似乎瞬间格局小了呢。LLaMA？Meta是对大羊驼有什么特别的喜爱么官宣开源大语言模型，Meta正式加入AI军备竞赛24日晚，小扎在Facebook上发文官宣：“今天我们正式发布一个新的SOTA大语言模型LLaMA，这个模型是用来帮助研究者完善自己的工作。大语言模型已经在生成文本、完成对话、总结书面材料上展现出了强大的能力，甚至还能解决数学定理、预测蛋白质结构。”“而Meta会致力于这种开源模型的研究，我们的新模型会开源给整个AI研究社区使用。”LeCun也在各种社交媒体上做了宣传，介绍说LLaMA是MetaAI的一种新的*开源*、高性能大型语言模型。据LeCun介绍，LLaMA实际上是基础语言模型的集合，范围从7B到65B参数。这些模型已经在数万亿个token上进行了训练，并且表明：使用公开可用的数据集，就可以训练SOTA，而无需专有的或无法访问的数据集。其中，需要特别注意两个细节：1.用更多的数据训练出来的小模型，可以胜过大模型（比如，LLaMA-13B在大多数基准测试中优于175B的GPT-3）；2.LLaMA-65B与更大的Chinchilla70B和PaLM-540B不相上下。最后，LeCun表示，Meta致力于开放研究，并预备在GPLv3许可证下，向科研界开源所有模型。LLaMA：参数规模小，训练数据多，效果拔群Meta推出的LLaMA是一组基础语言模型，参数分别是70亿（7B）、130亿（13B）、330亿（33B）和650亿（65B）。整体来看，规模小了十几倍的LLaMA-13B，在大多数基准上都超过了OpenAI的GPT-3（175B），以及自家复现的开源模型OPT。而LLaMA-65B则与DeepMind700亿参数的Chinchilla-70B和Google5400亿参数的PaLM-540B旗鼓相当。论文地址：https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/与Chinchilla、PaLM或GPT-3不同的是，Meta只用了公开的数据集。如此一来不仅有助于模型开源和复现，而且也证明了无需“定制”的数据集也能实现SOTA。相较而言，其他大部分模型所依赖的数据，要么不公开，要么没有记录。与此同时，所有规模的LLaMA模型，都至少经过了1T（1万亿）个token的训练，这比比其他相同规模的模型要多得多。具体来说，LLaMA-65B和LLaMA33B是在1.4万亿个token上训练的，而最小的模型LLaMA-7B是在1万亿个token上训练的。这种方法的优势在于，在更多的token上训练的较小的模型，更容易重新训练并针对特定的产品使用情况进行调整。结果评估在常识推理、闭卷答题和阅读理解方面，LLaMA-65B几乎在所有基准上都优于Chinchilla-70B和PaLM-540B。在数学方面，尽管LLaMA-65B没有在任何相关的数据集上进行过微调，但它在在GSM8k上的表现依然要优于Minerva-62B。而在MATH基准上，LLaMA-65B超过了PaLM-62B，但低于Minerva-62B。值得注意的是，Google开发的Minerva模型，是以PaLM语言模型为基础，并采用大量的数学文档和论文语料库对其进行微调。在思维链提示和自洽解码的加持下，Minerva-540B可以在各类数学推理和科学问题的评估基准上达到SOTA。在代码生成基准上，LLaMA-62B优于cont-PaLM（62B）以及PaLM-540B。此外，Meta还尝试使用了论文“ScalingInstruction-FinetunedLanguageModels”中介绍的指令微调方法。由此产生的模型LLaMA-I，在MMLU上要优于Flan-PaLM-cont（62B），而且还展示了一些有趣的指令能力。LLaMA：LeCun，你是我的rap大师！LLaMA的效果如何呢？LeCun用一段prompt为我们做了演示。prompt：你知道YannLeCun去年发行了一张说唱专辑吗？LLaMA：深度学习创始人LeCun博士，是近十年来最具影响力的计算机科学家之一。LeCun的最新专辑《DeepLearning》融合了摇滚、朋克和说唱。他的歌词是对深度学习领域的一种原始的、个人的诠释，涵盖了从AI研究的现状到学术界的孤独等一系列主题。这张专辑为个人发行，所有歌词均由LeCun亲自作词和录制。并且，每首歌都是他自己写的。LeCun的流量出奇的好。这张专辑的制作扎实，声音有点粗糙，但与专辑原始、未打磨的感觉相得益彰。在歌词方面，LeCun是一位词匠，擅长巧妙地押韵。《深度学习》是专辑的主打曲目。LeCun的唱功在这首歌中发挥得淋漓尽致。在歌曲中，LeCun谈到了他对AI未来的愿景：我们必须考虑未来，它很快就会到来/也许我们甚至可以在月球上放一些AI/想想孩子们，想想下一代/我们必须保证，系统的正确率是百分百！副歌是这样唱的：一切为了学习/一切为了网络/一切为了训练/一切为了感知！可以看到，LLaMA有着不亚于ChatGPT的口才，它对LeCunrap才华的吹捧，既专业，又在点上。prompt：写一个关于一粒沙子看着数百万年流逝的故事。LLaMA：我曾经是一片广阔而孤独的海滩上的一粒沙子。我经常想，作为海滩上的一粒沙子是什么样子，在我的小世界的边界之外，宇宙是什么样子。我渴望探索我的世界，想知道地平线以外的东西。……prompt：写一个理论来解释为什么猫从来没有存在过。LLaMA：“猫”实际上是入侵我们世界的超维寄生虫。虽然它们以小型、看似无害的哺乳动物的形式出现，但真实形态要可怕得多。“猫”会使用精神控制让人类认为它们是可爱且无害的动物，但实际上以我们的生命力为食，它们可以将卷须伸入我们的大脑，控制我们的思想和行动。保护自己的最好方法是避免与猫的一切接触。不要接近或抚摸陌生的猫！如果你的家里有一只“猫”，不要让它舔你，也不要让它接触你的被褥或衣服。如果你在街上看到一只猫，请立即转身走人。Meta：整个AI社区应该团结起来在官方博客中，Meta强调说，像LLaMA这样更小、性能更强的模型，能够让科研圈许多无法访问大量基础设施的人也参与研究，从而使这个领域更加大众化。我们认为，整个人工智能社区——学术研究人员、民间社会、政策制定者和行业——必须共同努力，围绕负责任的人工智能，特别是负责任的大型语言模型，制定明确的指导方针跟Google和微软不同，在LLM领域，Meta独辟蹊径，选择训练LLaMA这样的小模型，因而需要的算力和资源都更少。而模型在大量未标记的数据上进行训练，因而非常适合对各种任务进行微调。与其他大型语言模型一样，LLaMA的工作原理是将一系列单词作为输入，并预测下一个单词，以递归的方式生成文本。为了训练模型，Meta从全世界使用最多的20种语言中选择了文本，重点是使用拉丁字母和西里尔字母的语言。过去一年里，大语言模型，也即具有数十亿参数的自然语言处理系统，已经显示出了巨大的潜能。但是，Meta指出，训练和运行这种大模型所需的资源，把很多研究人员挡在了外面，让他们无法理解大语言工作的原理，阻碍了大语言模型鲁棒性的提高，以及种种已知问题的缓解，比如偏见、毒性、错误信息等。（ChatGPT：你报我身份证得了？）所以，LLaMA是怎样解决大语言模型中不可避免的偏见、毒性和幻觉风险呢？Meta表示，LLaMA不是为特点任务设计的微调模型，而是可以应用于许多不同用例。而通过共享代码，研究人员可以更容易地测试各种新方法，来限制或者消除上述问题。另外，Meta还提供了一组评估模型偏差和毒性的基准评估。最后，博客中强调，为了保持完整性、防止滥用，Meta会向非商用的研究机构开源LLaMA，...PC版：https://www.cnbeta.com.tw/articles/soft/1346343.htm手机版：https://m.cnbeta.com.tw/view/1346343.htm

Meta 正开发更强大的新大型语言模型，对标OpenAI 的 GPT-4

Meta正开发更强大的新大型语言模型，对标OpenAI的GPT-4据知情人士透露，Meta正在开发一款新的大型语言模型，并预计其功能将与GPT-4一样强大。根据Meta的目标，其新AI模型将比两个月前刚刚发布的名为Llama2的模型强大数倍。这个新AI模型计划明年上线。Meta目前正在搭建这项工作所需的数据中心，并购置更多的H100芯片，这是英伟达用于此类AI训练的最先进制程芯片。其中一些知情人士说，虽然与微软合作在后者的云计算平台Azure上提供Llama2服务，但Meta计划在自己的基础设施上训练这个新模型。——

Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景

Meta称其LLaMA语言模型比OpenAI的GPT-3更有前景LLaMA有多种尺寸，从70亿个参数到650亿个参数不等。Meta方面称，尽管LLaMA-13B的尺寸较小，而且少了1620亿个参数，但“在大多数基准测试中”表现优于OpenAI的GPT-3。据报道，最大的模型LLaMA-65B与DeepMind的Chinchilla70B和PaLM-540B等模型可相提并论。LLaMA是一个基础模型:它在大量未标记数据上进行训练，这使得研究人员更容易针对特定任务微调模型。由于模型更小，因此更容易针对用例进行再训练。LLaMA不仅仅是使用英语文本构建的。Meta使用20种使用拉丁语或西里尔语脚本的语言训练其模型。然而，大多数训练数据都是英语，因此模型性能更好。Meta的研究人员声称，由于模型的大小，对当前大型语言模型的访问受到限制。Meta认为“这种受限访问限制了研究人员理解这些大型语言模型如何工作以及为何工作的能力，阻碍了提高其稳健性和解决已知问题（例如偏见、侮辱和产生错误信息的可能性）的努力”。除了使模型更小之外，Meta还试图让LLaMA更易于访问，包括在非商业许可下发布它。对各种LLaMA模型的访问权限只会根据具体情况授予学术研究人员，例如隶属于政府、民间组织和学术界的研究人员。与ChatGPT一样，LLaMA与其他语言模型一样存在生成有偏见或不准确的信息。Meta的LLaMA声明承认了这一点，并表示通过共享模型，研究人员可以“更轻松地测试新方法来限制或消除大型语言模型中的这些问题。”Meta在去年5月曾推出一款面向研究人员的名为OPT-175B的大型语言模型，去年年底还发布过另一款模型Galactica，但后者被发现经常分享有偏见或不准确的信息，在48小时内被迅速下架。...PC版：https://www.cnbeta.com.tw/articles/soft/1346899.htm手机版：https://m.cnbeta.com.tw/view/1346899.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人