Poe 在 X 宣布，Llama 3 已可在 Poe 上使用。Llama 3 70B 是目前最强大的开源模型，在整个行业基准中具

Poe 在 X 宣布，Llama 3 已可在 Poe 上使用。Llama 3 70B 是目前最强大的开源模型，在整个行业基准中具有最先进的性能。它提供了新的功能，例如增强的推理、更好的代码生成和改进的指令跟踪。标签: #Poe #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

在Telegram中查看

相关推荐

4050亿参数 Meta或将7月23日发布迄今最强大Llama 3模型

4050亿参数 Meta或将7月23日发布迄今最强大Llama 3模型 Meta公司拒绝对上述消息置评。周五盘中，低开的Meta股价跌幅收窄，盘初曾跌3.6%，午盘跌不足2%，仍将在周四大幅回落超4%后连跌两日，或将刷新6月28日以来收盘低位。去年7月Meta发布的Llama 2有三个版本，最大版本70B的参数规模为700亿。今年4月，Meta发布Llama 3Meta，称它为“迄今为止能力最强的开源LLM”。当时推出的Llama 3有8B和70B两个版本。Meta CEO扎克伯格当时称，大版本的Llama 3将有超过4000亿参数。Meta并未透露会不会将4000亿参数规模的Llama 3开源，当时它还在接受训练。对比前代，Llama 3有了质的飞跃。Llama 2使用2万亿个 token进行训练，而训练Llama 3大版本的token超过15 万亿。Meta称，由于预训练和训练后的改进，其预训练和指令调优的模型是目前8B和70B两个参数规模的最佳模型。在训练后程序得到改进后，模型的错误拒绝率（FRR）大幅下降，一致性提高，模型响应的多样性增加。在推理、代码生成和指令跟踪等功能方面，Llama 3相比Llama 2有极大改进，使Llama 3更易于操控。4月Meta展示，8B和70B版本的Llama 3指令调优模型在大规模多任务语言理解数据集（MMLU）、研究生水平专家推理（GPQA）、数学评测集（GSM8K）、编程多语言测试（HumanEval）等方面的测评得分都高于Mistral、谷歌的Gemma和Gemini和Anthropic的Claude 3。8B和70B版本的预训练Llama 3多种性能测评优于Mistral、Gemma、Gemini和Mixtral。当时社交媒体的网友评论称，根据基准测试，当前的Llama 3模型不完全是 GPT-4 级别的，但仍在训练中的较大尺寸的模型将达到 GPT-4 级别。英伟达高级科学家Jim Fan认为，Llama 3的推出已经脱离了技术层面的进步，更是开源模型与顶尖闭源模型可分庭抗礼的象征。从Jim Fan分享的基准测试可以看出，Llama 3 400B 的实力几乎媲美 Claude“超大杯”以及新版 GPT-4 Turbo，将成为“分水岭”，相信它将释放巨大的研究潜力，推动整个生态系统的发展，开源社区或将能用上GPT-4级别的模型。此后有消息称，研究人员尚未开始对Llama 3进行微调，还未决定Llama 3是否将是多模态模型；正式版的Llama 3将会在今年7月正式推出。不同于OpenAI等开发商，Meta致力于开源LLM，不过，这个赛道也越来越拥挤。谷歌、特斯拉CEO马斯克旗下的xAI和Mistral 等竞争对手也发布了免费的AI模型。Llama 3问世后，同在4月亮相的4800亿参数模型Arctic击败Llama 3、Mixtra，刷新了全球最大开源模型的纪录。Arctic基于全新的Dense-MoE架构设计，由一个10B的稠密Tranformer模型和128×3.66B的MoE MLP组成，并在3.5万亿个token上进行了训练。相比Llama 3 8B和Llama 2 70B，Arctic所用的训练计算资源不到它们的一半，评估指标却取得了相当的分数。 ... PC版：手机版：

最强开源大模型深夜炸场：Llama 3 王者归来表现直逼 GPT-4

最强开源大模型深夜炸场：Llama 3 王者归来表现直逼 GPT-4 Llama 3 70B: 第一档 AI 模型，媲美 Gemini 1.5 Pro、全面超越 Claude 大杯以上还只是 Meta 的开胃小菜，真正的大餐还在后头。在未来几个月，Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中，超 400B 的重量级选手更是有望与 Claude 3 超大杯“掰手腕”。又一 GPT-4 级模型来了，Llama 3 开卷与前代 Llama 2 模型相比，Llama 3 可谓是迈上了一个新的台阶。得益于预训练和后训练的改进，本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型。同时后训练流程的优化显著降低了模型的出错率，增强了模型的一致性，并丰富了响应的多样性。扎克伯格曾在一次公开发言中透露，考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题，因此 Llama 2 在这一领域的优化并不突出。而这一次，Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升，使其更加灵活和易于使用。基准测试结果显示，Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说，最小的 Llama 3 基本上与最大的 Llama 2 一样强大。Llama 3 70B 则跻身于顶尖 AI 模型的行列，整体表现全面碾压 Claude 3 大杯，与 Gemini 1.5 Pro 相比则是互有胜负。为了准确研究基准测试下的模型性能，Meta 还特意开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。出于避免 Llama 3 在此评估集上出现过度拟合，Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中，Meta Llama 70B 都以“压倒性胜利”结束了比赛。据 Meta 官方介绍，Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比，Llama 3 进行了几项关键的改进：使用具有 128K token 词汇表的 tokenizer，可以更有效地编码语言，从而显著提升模型性能在 8B 和 70B 模型中都采用分组查询注意力（GQA），以提高 Llama 3 模型的推理效率在 8192 个 token 的序列上训练模型，使用掩码来确保自注意力不会跨越文档边界。训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。从一开始，Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。据悉，Llama 3 使用从公开来源收集的超过 15T 的 token，是 Llama 2 使用数据集的七倍，其中包含的代码数据则是 Llama 2 的四倍。考虑到多语言的实际应用，超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成，不过，Meta 官方也坦言，与英语相比，这些语言的性能表现预计是稍逊一筹。为了确保 Llama 3 接受最高质量的数据训练，Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。值得注意的是，研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好，于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据，真正实现了“AI 训练 AI”。除了训练的质量，Llama 3 在训练效率方面也取得了质的飞跃。Meta 透露，为了训练最大的 Llama 3 模型，他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。在 16K GPU 上同时进行训练时，每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。为了最大限度地延长 GPU 的正常运行时间，研究团队开发了一种先进的新训练堆栈，可以自动执行错误检测、处理和维护。此外，Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制，并且开发了新的可扩展存储系统，以减少检查点和回滚的开销。这些改进使得总体有效训练时间超过 95%，也让 Llama 3 的训练效率比前代足足提高了约 3 倍。开源 VS 闭源作为 Meta 的“亲儿子”，Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。追溯至去年的 Meta Connect 2023 大会，扎克伯格在会上正式宣布推出 Meta AI，随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。在此前的采访中，扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心，称其将会是人们可以免费使用的最智能的 AI 助手。我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题，它就能给出答案的形式，你可以给它更复杂的任务，它会去完成这些任务。当然，Meta AI 若是“ 尚未在您所在的国家/地区推出”，你可以采用开源模型最朴素的使用渠道全球最大的 AI 开源社区网站 Hugging Face。Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3，其使用的价格也已经曝光，不妨按需使用。有趣的是，在 Meta 官宣 Llama 3 前，有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本，但随着消息的进一步扩散，当蜂拥而至的网友再次尝试访问该链接时，得到的只有“404”的页面。Llama 3 的到来，正在社交平台 X 上掀起一股新的讨论风暴。Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊，并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区，用一句简洁而含蓄的“Not bad 不错”，表达了对 Llama 3 的认可和期待。英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+，在他看来，Llama 3 的推出已经脱离了技术层面的进步，更像是开源模型与顶尖闭源模型并驾齐驱的象征。从其分享的基准测试可以看出，Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及新版 GPT-4 Turbo，虽然仍有一定的差距，但足以证明其在顶尖大模型中占有一席之地。今天恰逢斯坦福大学教授，AI 顶尖专家吴恩达的生日，Llama 3 的到来无疑是最特别的庆生方式。不得不说，如今的开源模型当真是百花齐放，百家争鸣。今年年初，手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时描绘了 Meta 的愿景致力于打造 AGI（通用人工智能）。与不 open 的 OpenAI 形成鲜明对比，Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。正如扎克伯格所说，坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获：我通常非常倾向于认为开源对社区和我们都有好处，因为我们会从创新中受益。在过去的一年中，整个 AI 圈都在围绕开源或闭源的路线争论不休，甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。如今这场辩论，已经超越了技术层面的优劣比较，触及了 AI 未来发展的核心方向。前不久，一些观点称开源模型将会越来越落后，如今 Llama 3 的到来，也给了这种悲观的论调一记响亮的耳光。然而，尽管 Llama 3 为开源模型扳回一局，但这场关于开源与闭源的辩论还远未结束。毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天，以无可匹敌的性能为这场旷日持久的争论画上一个句号。 ... PC版：手机版：

Meta发布Llama 3 称其是目前最好的开放式模型之一

Meta发布Llama 3 称其是目前最好的开放式模型之一 Meta 称，与上一代 Llama 模型 Llama 2 8B 和 Llama 2 70B 相比，新模型 Llama 3 8B（包含 80 亿个参数）和 Llama 3 70B（包含 700 亿个参数）在性能上有了"重大飞跃"。(参数从本质上定义了人工智能模型处理问题的能力，比如分析和生成文本；一般来说，参数数越高的模型比参数数越低的模型能力越强）。事实上，Meta 表示，就各自的参数数而言，Llama 3 8B 和 Llama 3 70B 是在两个定制的 24,000 GPU 集群上训练出来的，是当今性能最好的生成式人工智能模型之一。话说得很满，那么，Meta 公司是如何证明这一点的呢？该公司指出了 Llama 3 模型在 MMLU（用于测量知识）、ARC（用于测量技能习得）和 DROP（用于测试模型对文本块的推理能力）等流行的人工智能基准上的得分。正如我们之前所写，这些基准的实用性和有效性还有待商榷。但无论好坏，它们仍然是 Meta 等人工智能玩家评估其模型的少数标准化方法之一。在至少九项基准测试中，Llama 3 8B 优于其他开源模型，如 Mistral 的Mistral 7B和 Google 的Gemma 7B，这两个模型都包含 70 亿个参数：这些基准包括：MMLU、ARC、DROP、GPQA（一组生物、物理和化学相关问题）、HumanEval（代码生成测试）、GSM-8K（数学单词问题）、MATH（另一种数学基准）、AGIEval（解决问题测试集）和 BIG-Bench Hard（常识推理评估）。现在，Mistral 7B 和 Gemma 7B 并不完全处于最前沿（Mistral 7B 于去年 9 月发布），在 Meta 引用的一些基准测试中，Llama 3 8B 的得分仅比这两款产品高几个百分点。但 Meta 还声称，参数数更多的 Llama 3 型号 Llama 3 70B 与旗舰生成式人工智能模型（包括Google Gemini 系列的最新产品 Gemini 1.5 Pro）相比也具有竞争力。图片来源：MetaLlama 3 70B 在 MMLU、HumanEval 和 GSM-8K 三项基准测试中均优于 Gemini 1.5 Pro，而且，虽然它无法与 Anthropic 性能最强的 Claude 3 Opus 相媲美，但 Llama 3 70B 在五项基准测试（MMLU、GPQA、HumanEval、GSM-8K 和 MATH）中的得分均优于 Claude 3 系列中性能最弱的 Claude 3 Sonnet。值得注意的是，Meta 还开发了自己的测试集，涵盖了从编码、创作到推理、总结等各种用例，令人惊喜的是，Llama 3 70B 在与 Mistral Medium 模型、OpenAI 的 GPT-3.5 和 Claude Sonnet 的竞争中脱颖而出！- Llama 3 70B 在与 Mistral 的 Mistral Medium 模型、OpenAI 的 GPT-3.5 和 Claude Sonnet 的竞争中脱颖而出。Meta 表示，为了保持客观性，它禁止其建模团队访问这组数据，但很明显，鉴于 Meta 自己设计了这项测试，我们必须对结果持谨慎态度。在质量方面，Meta 表示，新 Llama 模型的用户可以期待更高的"可操控性"、更低的拒绝回答问题的可能性，以及更高的琐碎问题、与历史和 STEM 领域（如工程和科学）相关的问题和一般编码建议的准确性。这在一定程度上要归功于一个更大的数据集：一个由 15 万亿个标记组成的集合，或者说一个令人难以置信的 750,000,000,000 单词，是 Llama 2 训练集的七倍。这些数据从何而来？Meta 公司不愿透露，只表示数据来自"公开来源"，包含的代码数量是 Llama 2 训练数据集的四倍，其中 5%包含非英语数据（约 30 种语言），以提高非英语语言的性能。Meta 还表示，它使用了合成数据（即人工智能生成的数据）来创建较长的文档，供 Llama 3 模型训练使用，由于这种方法存在潜在的性能缺陷，因此颇受争议。Meta 在一篇博文中写道："虽然我们今天发布的模型仅针对英语输出进行了微调，但数据多样性的增加有助于模型更好地识别细微差别和模式，并在各种任务中表现出色。"许多生成式人工智能供应商将训练数据视为一种竞争优势，因此对训练数据和相关信息守口如瓶。但是，训练数据的细节也是知识产权相关诉讼的潜在来源，这是另一个不愿意透露太多信息的原因。最近的报道显示，Meta 公司为了追赶人工智能竞争对手的步伐，曾一度不顾公司律师的警告，将受版权保护的电子书用于人工智能训练；包括喜剧演员莎拉-西尔弗曼（Sarah Silverman）在内的作者正在对 Meta 和 OpenAI 提起诉讼，指控这两家公司未经授权使用受版权保护的数据进行训练。那么，生成式人工智能模型（包括 Llama 2）的另外两个常见问题毒性和偏差又是怎么回事呢？Llama 3 是否在这些方面有所改进？Meta 声称：是的。Meta 表示，公司开发了新的数据过滤管道，以提高模型训练数据的质量，并更新了一对生成式人工智能安全套件 Llama Guard 和 CybersecEval，以防止 Llama 3 模型和其他模型的滥用和不必要的文本生成。该公司还发布了一款新工具 Code Shield，旨在检测生成式人工智能模型中可能引入安全漏洞的代码。不过，过滤并非万无一失，Llama Guard、CybersecEval 和 Code Shield 等工具也只能做到这一步。我们需要进一步观察 Llama 3 型号在实际运用时的表现如何，包括学术界对其他基准的测试。Meta公司表示，Llama 3模型现在已经可以下载，并在Facebook、Instagram、WhatsApp、Messenger和网络上为Meta公司的Meta人工智能助手提供支持，不久将以托管形式在各种云平台上托管，包括AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM的WatsonX、Microsoft Azure、NVIDIA的NIM和Snowflake。未来，还将提供针对 AMD、AWS、戴尔、英特尔、NVIDIA 和高通硬件优化的模型版本。而且，功能更强大的型号即将问世。Meta 表示，它目前正在训练的 Llama 3 模型参数超过 4000 亿个这些模型能够"用多种语言交流"、接收更多数据、理解图像和其他模式以及文本，这将使 Llama 3 系列与 Hugging Face 的Idefics2 等公开发布的版本保持一致。"我们近期的目标是让 Llama 3 成为多语言、多模态、具有更长上下文的产品，并继续提高推理和编码等核心（大型语言模型）功能的整体性能，"Meta 在一篇博文中写道。"还有很多事情要做"。 ... PC版：手机版：

Perplexity 在 X 宣布，Llama 3 已可在 Perplexity Labs 和 API 上使用。

Perplexity 在 X 宣布，Llama 3 已可在 Perplexity Labs 和 API 上使用。使用链接：标签: #Perplexity #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

新测试基准发布最强开源Llama 3尴尬了

新测试基准发布最强开源Llama 3尴尬了 Llama 3的两个指令微调版本实力到底如何，也有了最新参考。与之前大家分数都相近的MT Bench相比，Arena-Hard区分度从22.6%提升到87.4%，孰强孰弱一目了然。Arena-Hard利用竞技场实时人类数据构建，与人类偏好一致率也高达89.1%。除了上面两个指标都达到SOTA之外，还有一个额外的好处：实时更新的测试数据包含人类新想出的、AI在训练阶段从未见过的提示词，减轻潜在的数据泄露。并且新模型发布后，无需再等待一周左右时间让人类用户参与投票，只需花费25美元快速运行测试管线，即可得到结果。有网友评价，使用真实用户提示词而不是高中考试来测试，真的很重要。新基准测试如何运作？简单来说，通过大模型竞技场20万个用户查询中，挑选500个高质量提示词作为测试集。首先，挑选过程中确保多样性，也就是测试集应涵盖广泛的现实世界话题。为了确保这一点，团队采用BERTopic中主题建模管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）转换每个提示，使用 UMAP 降低维度，并使用基于层次结构的模型聚类算法 (HDBSCAN) 来识别聚类，最后使用GPT-4-turbo进行汇总。同时确保入选的提示词具有高质量，有七个关键指标来衡量：-具体性：提示词是否要求特定的输出？-领域知识：提示词是否涵盖一个或多个特定领域？-复杂性：提示词是否有多层推理、组成部分或变量？-解决问题：提示词是否直接让AI展示主动解决问题的能力？-创造力：提示词是否涉及解决问题的一定程度的创造力？-技术准确性：提示词是否要求响应具有技术准确性？-实际应用：提示词是否与实际应用相关？使用GPT-3.5-Turbo和GPT-4-Turbo对每个提示进行从 0 到 7 的注释，判断满足多少个条件。然后根据提示的平均得分给每个聚类评分。高质量的问题通常与有挑战性的话题或任务相关，比如游戏开发或数学证明。新基准测试准吗？Arena-Hard目前还有一个弱点：使用GPT-4做裁判更偏好自己的输出。官方也给出了相应提示。可以看出，最新两个版本的GPT-4分数高过Claude 3 Opus一大截，但在人类投票分数中差距并没有那么明显。其实关于这一点，最近已经有研究论证，前沿模型都会偏好自己的输出。研究团队还发现，AI天生就可以判断出一段文字是不是自己写的，经过微调后自我识别的能力还能增强，并且自我识别能力与自我偏好线性相关。那么使用Claude 3来打分会使结果产生什么变化？LMSYS也做了相关实验。首先，Claude系列的分数确实会提高。但令人惊讶的是，它更喜欢几种开放模型如Mixtral和零一万物Yi，甚至对GPT-3.5的评分都有明显提高。总体而言，使用Claude 3打分的区分度和与人类结果的一致性都不如GPT-4。所以也有很多网友建议，使用多个大模型来综合打分。除此之外，团队还做了更多消融实验来验证新基准测试的有效性。比如在提示词中加入“让答案尽可能详尽”，平均输出长度更高，分数确实会提高。但把提示词换成“喜欢闲聊”，平均输出长度也有提高，但分数提升就不明显。此外在实验过程中还有很多有意思的发现。比如GPT-4来打分非常严格，如果回答中有错误会狠狠扣分；而Claude 3即使识别出小错误也会宽大处理。对于代码问题，Claude 3倾向于提供简单结构、不依赖外部代码库，能帮助人类学习编程的答案；而GPT-4-Turbo更倾向最实用的答案，不管其教育价值如何。另外即使设置温度为0，GPT-4-Turbo也可能产生略有不同的判断。从层次结构可视化的前64个聚类中也可以看出，大模型竞技场用户的提问质量和多样性确实是高。这里面也许就有你的贡献。Arena-Hard GitHub： HuggingFace： ... PC版：手机版：

Gorq 的 iOS 应用已经推出，支持的模型有 Llama3 8B 、 70B 、 Llama2 70B 、 Mixtral

Gorq 的 iOS 应用已经推出，支持的模型有 Llama3 8B 、 70B 、 Llama2 70B 、 Mixtral 8X7B 、 Gemma 7B 。输出速度非常快，目前不需要登录并且免费，通过下面的testflight链接安装。安装：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人