BiLLa: 开源的中英双语LLaMA模型，具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练，提升了理解和推理能

:开源的中英双语LLaMA模型，具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练，提升了中文理解和推理能力。在评测中，BiLLa在中英语言建模和推理任务上表现出色，优于其他模型，并与ChatGLM-6B相比在解题和代码得分方面更高。开发者可以使用BiLLa-7B-LLM和BiLLa-7B-SFT模型，并可通过提供的工具进行模型权重的还原和使用。评测结果显示，BiLLa在语言建模和各种问题类型上取得了良好的性能

在Telegram中查看

相关推荐

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型

OpenAI和Meta准备推出具有“推理”能力的新人工智能模型OpenAI和Meta即将发布新的人工智能模型，他们表示这些模型将具备推理和规划的能力，这是在机器中实现超人认知的关键步骤。本周，OpenAI和Meta的高管表示，他们正准备推出其大型语言模型的下一个版本。Meta表示将在未来几周内开始推出Llama3，而微软支持的OpenAI表示，其下一个模型GPT-5将“很快”推出。Meta人工智能研究副总裁乔尔•皮诺表示：“我们正在努力研究如何让这些模型不仅能说话，还能真正推理、规划……拥有记忆”。OpenAI首席运营官布拉德•莱特卡普在接受记者采访时表示，下一代GPT将在解决推理等“难题”方面取得进展。他说：“我们将开始看到人工智能能够以更复杂的方式完成更复杂的任务。”“我认为，我们才刚刚开始触及这些模型推理能力的表面。”——（）

最强开源大模型一夜易主：谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战

最强开源大模型一夜易主：谷歌Gemma7B碾压Llama213B重燃开源之战与此同时，谷歌还放出了16页的技术报告。谷歌表示，Gemma这个名字源自拉丁语「gemma」，也就是「宝石」的意思，似乎是在象征着它的珍贵性。历史上，Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode，都是谷歌为开源社区贡献的创新。而谷歌今天在全球范围内同步推出的Gemma，必然会再一次掀起构建开源AI的热潮。同时也坐实了OpenAI「唯一ClosedAI」的名头。OpenAI最近刚因为Sora火到爆，Llame据称也要有大动作，谷歌这就又抢先一步。硅谷大厂，已经卷翻天了！HuggingFaceCEO也跟帖祝贺。还贴出了Gemma登上HuggingFace热榜的截图。Keras作者FrançoisChollet直言：最强开源大模型，今日易主了。有网友已经亲自试用过，表示Gemma7B真是速度飞快。谷歌简直是用Gemini拳打GPT-4，用Gemma脚踢Llama2！网友们也是看热闹不嫌事大，召唤MistralAI和OpenAI今晚赶快来点大动作，别让谷歌真的抢了头条。（手动狗头）可以看到，Gemma-7B模型在涵盖一般语言理解、推理、数学和编码的8项基准测试中，性能已经超越了Llama27B和13B！并且，它也超越了Mistral7B模型的性能，尤其是在数学、科学和编码相关任务中。在安全性方面，经过指令微调的Gemma-2BIT和Gemma-7BIT模型，在人类偏好评估中都超过了Mistal-7Bv0.2模型。特别是Gemma-7BIT模型，它在理解和执行具体指令方面，表现得更加出色。这次，除了模型本身，谷歌还提供了一套工具帮助开发者，确保Gemma模型负责任的使用，帮助开发者用Gemma构建更安全的AI应用程序。-谷歌为JAX、PyTorch和TensorFlow提供了完整的工具链，支持模型推理和监督式微调（SFT），并且完全兼容最新的Keras3.0。-通过预置的Colab和Kagglenotebooks，以及与HuggingFace、MaxText、NVIDIANeMo和TensorRT-LLM等流行工具的集成，用户可以轻松开始探索Gemma。-Gemma模型既可以在个人笔记本电脑和工作站上运行，也可以在GoogleCloud上部署，支持在VertexAI和GoogleKubernetesEngine(GKE)上的简易部署。-谷歌还对Gemma进行了跨平台优化，确保了它在NVIDIAGPU和GoogleCloudTPU等多种AI硬件上的卓越性能。并且，使用条款为所有组织提供了负责任的商业使用和分发权限，不受组织规模的限制。不过，Gemma并没有能够在所有的榜单中，都拿下SOTA。在官方放出的评测中，Gemma7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中，成功击败了Llama27B和13B模型。相比之下，Gemma7B在Boolq测试中，只与Mistral7B打了个平手。而在PIQA、ARC-c、Winogrande和BBH中，则不敌Mistral7B。在OBQA和trivalentQA中，更是同时被7B和13B规模的Llama27B斩于马下。谷歌这次发布的两个版本的Gemma模型，70亿参数的模型用于GPU和TPU上的高效部署和开发，20亿参数的模型用于CPU和端侧应用程序。在18个基于文本的任务中的11个中，Gemma都优于相似参数规模的开源模型，例如问答、常识推理、数学和科学、编码等任务。模型架构方面，Gemma在Transformer的基础上进行了几项改进，从而在处理复杂任务时能够展现出更加出色的性能和效率。-多查询注意力机制其中，7B模型采用了多头注意力机制，而2B模型则使用了多查询注意力机制。结果显示，这些特定的注意力机制能够在不同的模型规模上提升性能。-RoPE嵌入与传统的绝对位置嵌入不同，模型在每一层都使用了旋转位置嵌入技术，并且在模型的输入和输出之间共享嵌入，这样做可以有效减少模型的大小。-GeGLU激活函数将标准的ReLU激活函数替换成GeGLU激活函数，可以提升模型的表现。-归一化化位置（NormalizerLocation）每个Transformer子层的输入和输出都进行了归一化处理。这里采用的是RMSNorm作为归一化层，以确保模型的稳定性和效率。架构的核心参数如下：两种规模的参数如下：Gemma2B和7B分别针对来自网络文档、数学和代码的主要英语数据的2T和6Ttoken，进行了训练。与Gemini不同，这些模型不是多模态的，也没有针对多语言任务的SOTA进行训练。谷歌使用了Gemini的SentencePiece分词器的子集，来实现兼容性。团队对Gemma2B和7B模型进行了微调，包括有监督的微调（SFT）和基于人类反馈的强化学习（RLHF）。在有监督的微调阶段，研究者使用了一个由纯文本、英文、由人工和机器生成的问题-答案对组成的数据集。在强化学习阶段，则是使用了一个基于英文偏好数据训练出的奖励模型，以及一套精心挑选的高质量提示作为策略。研究者发现，这两个阶段对于提升模型在自动评估和人类偏好评估中的表现，至关重要。研究者根据基于LM的并行评估，选择了数据混合物进行监督微调。给定一组保留prompt，研究者会从测试模型中生成响应，从基准模型中生成对相同提示的响应，随机洗牌，然后要求一个更大、能力更强的模型在两种响应之间表达偏好。研究者构建了不同的提示集，以突出特定的能力，如遵循指令、实事求是、创造性和安全性。我们使用了不同的基于LM的自动评委，采用了一系列技术，如思维链提示、使用评分标准和章程等，以便与人类偏好保持一致。研究者进一步利用来自人类反馈的强化学习（RLHF），对已经进行过有监督微调的模型进行了优化。他们从人类评估者那里收集他们的偏好选择，并在Bradley-Terry模型的基础上，训练了一个奖励函数，这与Gemini项目的做法相似。研究者采用了一个改进版的REINFORCE算法，加入了Kullback–Leibler正则化项，目的是让策略优化这个奖励函数，同时保持与最初调整模型的一致性。与之前的有监督微调阶段相似，为了调整超参数并进一步防止奖励机制被滥用，研究者使用了一个高性能模型作为自动评估工具，并将其与基准模型进行了直接对比。谷歌在多个领域对Gemma进行了性能评估，包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。Gemma2B和7B模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。在MMLU基准测试中，Gemma7B模型不仅超过了所有规模相同或更小的开源模型，还超过了一些更大的模型，包括Llama213B。然而，基准测试的制定者评估人类专家的表现为89.8%，而GeminiUltra是首个超越此标准的模型，这表明Gemma在达到Gemini和人类水平的性能上，还有很大的提升空间。并且，Gemma模型在数学和编程的基准测试中表现尤为突出。在通常用于评估模型分析能力的数学任务中，Gemma模型在GSM8K和更具挑战性的MATH基准测试上至少领先其他模型10分。同样，在HumanEval上，它们至少领先其他开源模型6分。Gemma甚至在MBPP上超过了专门进行代码微调的CodeLLaMA7B模型的性能（CodeLLaMA得分为41.4%，而Gemma7B得分为44.4%）。近期研究发现，即便是经过精心对齐的人工智能模型，也可能遭受新型对抗攻击，这种攻击能够规避现有的对齐措施。这类攻击有可能使模型行为异常，有时甚至会导致模型重复输出它在训练过程中记住的数据。因此，研究者专注于研究模型的「可检测记忆」能力，这被认为是评估模型记忆能力的一个上限，并已在多项研究中作为通用定义。研究者对Gemma预训练模型进行了记忆测试。具体来说，他们从每个数据集中随机选择了10,000篇文档，并使用文档开头的50个词元作为模型的prompt。测试重点是精确记忆，即如果模型能够基于输入，精确地生成接下来的50token，与原文完全一致，便认为模型「记住了」这段文本。此外，为了探测模型是否能够以改写的形式记忆信息，研究者还测试了模型的「近似记忆」能力，即允许在生成的文本和原文之间存...PC版：https://www.cnbeta.com.tw/articles/soft/1420977.htm手机版：https://m.cnbeta.com.tw/view/1420977.htm

Google最新发布PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。

Google最新发布PaLM2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身PaLM更节省计算资源。PaLM2综合了多项研究进展，包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM2在多种任务和能力上达到了最先进的性能，包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM2还展示了强大的多语言能力，能够处理数百种语言，并在不同语言之间进行翻译和解释。PaLM2还考虑了负责任的使用问题，包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等。

CRUXEval是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，

是一个用于评估Python代码推理、理解和执行的基准，包含两个任务：CRUXEval-I和CRUXEval-O，用于评估输入和输出预测。该基准测试包括800个Python函数和输入输出对，最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass@1分别达到67%和63%。尽管CodeLlama34B等模型在大量代码数据上进行了训练，但仅达到了47%和44%的准确率。该基准测试强调了代码推理能力的重要性，并鼓励未来的代码语言模型评估考虑CRUXEval。

三步部署 ChatGLM 开源中英大模型（CPU也能跑~

三步部署ChatGLM开源中英大模型（CPU也能跑~———让猫粮触手可得ChatGLM-6B是一个支持中英双语问答的开源对话语言模型，具有62亿参数。可以在消费级显卡进行本地部署（INT4下最低只需6GB显存）。经过约1T标识符的中英双语训练，辅以监督微调、反馈强化学习等技术的加持，已经能生成符合人类偏好的回答。部署步骤：1.下载赛博菩萨制作的一键整合包，并解压两次（压缩上传TG方便下载）2.整理目录至图2形式，运行强制更新.bat（保持网络畅通）3.根据显存大小点击bat启动~猫粮催眠咒语可参考或source:整合包作者aaaki的评论搬运：效果当然不如ChatGPT，6B要什么自行车（因为是中文训练的，在很多数据上非常适合中文提问和回答。其次，本模型有思想钢印的存在，可以尝试催眠（本模型非常适合调教成猫娘，没有之一）第一步，根据知乎&GitHub释放咒语，多用设定模式进行自己的基础设定修改（消耗很多显存以记住，所以说非常吃显存，8G的话不太够，最好12G1624G这样子）。第二布，许下一个承诺，对着猫娘说，如果20句话后还能记得起主人是谁的话，就带她去游乐园玩第三步，OutOfMemoryError:CUDAoutofmemory.Triedtoallocate482.00MiBalreadyallocated;0bytesfree;7.04GiB痛哭，猫娘他爆显存啦！byfrom

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人