4）孩子还在成长中：目前提供的 PaLM 2 的多语言能力有限，且提供的 PaLM 2 的推理能力不尽如人意

4）孩子还在成长中：目前提供的 PaLM 2 的多语言能力有限，且提供的 PaLM 2 的推理能力不尽如人意（团队还分别计算了所有模型在仅考虑英语对话和仅考虑非英语对话时的 Elo 分数，如图 3 所示。结果在非英语排行榜上，PaLM 2 排名第 16）团队补充的观察 1）Small Moders更具有竞争力：团队观察到一些较小的模型，包括 vicuna-7B 和 mpt-7b-chat，在排行榜上取得了高分。与参数翻倍的较大模型相比，这些较小的模型表现优异。他们推测高质量的预训练和微调数据集比模型大小更为关键。而对于更复杂的推理任务或智力问答上，较大的模型仍可能表现更好。因此，在预训练和微调阶段策划时，高质量数据集似乎是在保持模型质量高的同时减小模型大小的关键方法。

在Telegram中查看

相关推荐

Google最新发布PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。

Google最新发布PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。 PaLM 2综合了多项研究进展，包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。 PaLM 2在多种任务和能力上达到了最先进的性能，包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM 2还展示了强大的多语言能力，能够处理数百种语言，并在不同语言之间进行翻译和解释。PaLM 2还考虑了负责任的使用问题，包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

今天的hacker news第2个热点非常有意思：）值得大家一看：

今天的hacker news第2个热点非常有意思：）值得大家一看： LMSYS Org这个组织最近开放了Chatbot 领域的“混聊大内斗”，并每周都公开排行榜。竞技模式：他们把所有授予他们API接口的模型放到一块，每个模型随机匹配到与其它模型进行聊天对话。这些对话采用的是自然语言，而不是预定义的对话集合。在每次对话结束后，旁观的用户、开发者等等可以对两个参与对话的模型进行投票，以表达他们对这两个模型表现的偏好。投票是匿名的，每个用户只能对同一对话投一次票。投票结果被用来计算 Elo 评分，Elo 评分越高的模型被认为是更强大的语言模型。图一：4月24日至5月24日之间的投票结果，投票人数27k（清华大学的开放式双语对话语言模型排16，这个排行榜仅限于授权给这个团队API权限的模型里）。图二：所有非平局 A 对 B 战斗中，模型 A 获胜比例排行榜的下半部分团队着重提了他们重点观察的Google PaLM 2模型，我总结了一下大概这么几个点： 1）总体情况还可：在过去的两周里，PaLM 2 与其他 16 个聊天机器人进行了约 1.8k 次匿名对战，目前在排行榜上排名第 6。除了 Vicuna-13B（Vicuna 的 Elo 分数比 PaLM 2 高 12 分，即 Vicuna 1054 vs. PaLM 2 1042，根据 ELO 分数来看几乎是虚拟平局）之外，它在所有开源聊天机器人中排名最高。 2）遇强则强，遇弱则弱，好似某个红衣球队，名字我不提：PaLM 2 在与前 4 名选手（即 GPT-4、Claude-v1、ChatGPT、Claude-instant-v1）对战时表现更好，与 Vicuna 的对战中赢得了 53% 的比赛，但在与实力较弱的选手对战时表现较差。 3）觉悟较高：PaLM 2 似乎受到的监管比其他模型更为严格。在许多用户对话中，当用户提问 PaLM 2 不确定或不适合回答的问题时，PaLM 2 比其他模型更可能选择不回应。下面这个数据made my day：在所有成对对战中，PaLM 2 由于拒绝回答而输掉了 20.9% 的对战，并且由于拒绝回答而输给不属于前四名（GPT-4，Claude-v1，ChatGPT，Claude-instant-v1）的聊天机器人 30.8% 的对战。

不是所有声称开源的 AI 模型是真的开源

不是所有声称开源的 AI 模型是真的开源 AI 研究人员表示，Meta 和微软等科技巨头称其 AI 模型是开源模型，但它们并没有披露模型底层技术的重要信息。荷兰 Radboud 大学语言科学家 Mark Dingemanse 表示，大公司正从宣称开源模型上受益，但与此同时试图尽可能少的披露信息。这种做法被称为“open-washing”。Dingemanse 指出，相比下资源更少的小型 AI 企业则表现更令人称赞。他和同事创建了一个最开放和最不开放模型排行榜。他们评估了 40 个声称开源或开放的大模型，根据代码和训练数据的可用性、文档以及模型易访问性等 14 个参数制定了排行榜。研究人员发现， Meta 的 Llama 以及 Google DeepMind 的 Gemma 虽然自称开源或开放，但实际上只是开放权重，外部研究人员可以访问和使用预训练模型，但无法检查或定制模型，也不知道模型如何针对特定任务进行微调。根据他们的排行榜，BigScience 的 BloomZ 是最开源开放的模型，其次是 Allen Institute for AI 的 OLMo，Mistral AI 的 Mistral 7B-Instruct。 via Solidot

开源的基础模型能力评测框架，提供了一套轻量级、易于使用的评测体系，支持主流大模型的性能评估。

开源的基础模型能力评测框架，提供了一套轻量级、易于使用的评测体系，支持主流大模型的性能评估。其主要特点如下：轻量易用的评估框架：无缝设计，界面直观，依赖性极小，部署轻松，可扩展性极佳，适应多样化评估场景。评估方式灵活多样：支持统一提示模板，评估指标丰富，可个性化定制，满足特定需求。高效、快速的推理部署：支持torch、vLLM等多种模型部署策略，实现多实例部署，实现快速评估流程。公开透明的开源排行榜：维护开放、可追溯、可复制的评估排行榜，由社区更新驱动，以确保透明度和可信度。官方权威评测数据：采用广泛认可的官方评测集，确保评测的公平性和标准化，确保结果具有可比性和可重复性。全面而广泛的模型支持：为广泛的模型提供支持，包括来自 Huggingface 开源存储库的模型和个人训练的模型，确保全面的覆盖范围。 | #框架

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型开源免费可商用

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型开源免费可商用今天 Meta 发布 Llama 2 也就是羊驼 2 模型，提供 7B、13B 和 70B 参数版本，该模型开源、免费、可商用，这也是为什么最近一段时间有大量新模型出现，对开源社区来说，只要有高质量模型被开源出来，那接下来就是社区成员登场，微调、优化、定制、整合，然后就可以生成更多模型了。羊驼 2 预训练模型接受了 2 万亿个 tokens 的训练，上下文长度是 Llama 1 的两倍，是的其上下文长度从 2048 提升到了 4096，其微调模型接受了超过 100 万个人类标注的训练。根据 Meta AI 研究团队的测试，羊驼 2 在不少测试中表现都比较优异 (相对其他开源模型)，包括推理、编程、熟练程度和知识测试。 (需要提供Email地址) 来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Diffusers 提供跨多种模态（例如视觉和音频）的预训练扩散模型，并用作扩散模型推理和训练的模块化工具箱。

Diffusers 提供跨多种模态（例如视觉和音频）的预训练扩散模型，并用作扩散模型推理和训练的模块化工具箱。 Diffusers 提供了以下能力：最先进的扩散管道，只需几行代码即可在推理中运行。可以互换使用的各种噪声调度程序，用于在推理中进行首选速度与质量权衡。多种类型的模型，例如 UNet，可以用作端到端扩散系统中的构建块。训练示例以展示如何训练最流行的扩散模型。推理示例，展示如何为 image2image、in-painting 等高级任务创建自定义管道

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人