DeepSeek-V2 这个模型确实很强，尝试了一下我日常的任务都能胜任。

DeepSeek-V2 这个模型确实很强，尝试了一下我日常的任务都能胜任。主要是太便宜了，开放平台送的十块钱总共有 500 万 Token 。冲个五十块钱估计够我用好几年。模型为 MOE 架构总参数 236B 激活参数 21B，开源版本上下文 128K，API 上下文 32K 。在8卡H800机器上，输出吞吐量超过每秒 5 万 Token。模型权重下载：

在Telegram中查看

相关推荐

Kimi chat 背后的模型，moonshot模型正式开放了 API 申请。

Kimi chat 背后的模型，moonshot模型正式开放了 API 申请。而且完全与 OpenAI 的 API 兼容，可以很方便的迁移。最高的模型上下文为 128K 。 moonshot-v1-128k 模型的价格为0.06元，新用户会送 15 元的 Token 额度。

通义千问开源千亿级参数模型

通义千问开源千亿级参数模型通义千问开源1100亿参数模型Qwen1.5-110B，成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构，采用了分组查询注意力方法(GQA)，使得模型在推理时更加高效。110B模型支持32K上下文长度，具备优秀的多语言能力，支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。来源：雪球7X24资讯

是一个15.5B参数模型，使用80多种编程语言的GitHub代码进行训练。

是一个15.5B参数模型，使用80多种编程语言的GitHub代码进行训练。该模型采用了多查询注意力和8192个Token的上下文窗口，使用了1万亿个Token的填充中间目标进行训练。可用于生成代码片段，但生成的代码不保证有效、没有漏洞或不包含漏洞 |

谷歌发布了Gemini 1.5模型，最主要的升级是支持了高达 100 万的上下文长度，秒杀了所有模型。

谷歌发布了Gemini 1.5模型，最主要的升级是支持了高达 100 万的上下文长度，秒杀了所有模型。 Gemini 1.5基于Transformer和MoE架构的研究和工程创新，提高了训练和服务的效率。 Gemini 1.5 Pro是一个中等规模的多模态模型，适用于多种任务，并引入了在长上下文理解方面的实验性特性。它标准的上下文窗口为128,000个Token，但现在已经可以通过AI Studio和Vertex AI向开发者和企业客户提供高达100万个Token的私人预览。 1.5 Pro 可以一次处理大量信息包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词。 Gemini 1.5 Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini 1.0 Pro，并且与1.0 Ultra在同样的基准测试上表现相当。此外，Gemini 1.5 Pro在进行长上下文窗口的测试中表现出色，在NIAH评估中，它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。了解更多：#context-window

Databricks 发布最大开源大语言模型 DBRX

Databricks 发布最大开源大语言模型 DBRX 美国AI初创公司Databricks周三公布，该公司开发的通用大语言模型 DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama 2-70B、法国MixtralAI公司的Mixtral 和马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX 在 30多种不同的最先进模型(SOTA) 基准指标测试中，均优于前述三种大模型。 DBRX 使用混合专家架构(MoE) ，拥有16个专家模型，共1320亿参数。该模型使用 3072 英伟达 H100 GPU在12万亿个token的数据集上进行训练，最大支持32k 的上下文窗口。同时，Databrick 也开源了该模型经过指令微调（instruct finetune）的版本。 ,

IBM发布开源模型Granite Code 在编程任务中超过谷歌模型

IBM发布开源模型Granite Code 在编程任务中超过谷歌模型 IBM 最近发布了一组名为"Granite Code"的开源型，旨在帮助企业完成各种软件开发任务，并在基准测试中表现出色。这些模型不仅过了一些较大的开源竞争对手，而且在编程任务中展现出了强大的性能。Granite Code 型分为基础模型和指导模型，每种模型都有四个不同规模的变种，参数数量从30到340亿不等。这些模型的上下文窗口相对较短，例如，其中一个模型的上下文窗口只有128K，这限制了其在包含特定文档或自己的代码库等提示信息时的有效性。不过，IBM 目正在开发具有更大上下文窗口的版本。基础模型的训练分为两个阶段。第一阶段使用自116种编程语言的3-4万亿个标记进行训练，以建立广泛的理解能力。在第阶段，这些模型使用来自高质量代码和自然语言数据的5000亿个标记进行进一步训练，以强逻辑推理能力。指导模型是通过对基础模型进行改进而创建的，改进方法包括筛选提交记录、自然语言指令记录和合成生成的代码数据集。在包括代码合成、调试、解释、编辑、学推理等多个基准测试中，Granite Code 模型在各个规模和基准测试中表现出色，常常超过开源模型两倍以上的大小。例如，在 HumanEvalPack 基准测试中，Granite-8B-Code-Base 的平均得为33.2%，超过Google最佳表现的 CodeGemma-8B 模型的21.3%，尽管 Granite-8-Code-Base 所使用的标记数量明显较少。这些模型的大部分训练数据来自一个清理过的 GitHub 集 StarCoderData 和其他公开可用的代码库。这一点非常重要，因为目前有一些关于其他代码型（包括 GitHub 本身）涉嫌侵犯训练数据版权的诉讼。IBM 计划定期更新这些模型，很快将推出具有更大上下文窗口以及针对 Python 和 Java 的专业化版本。这些模型已经在 Hugging FaceGitHub 上可用，并且也是 IBM 的 watsonx 企业平台的一部分。IBM 的 Granite Code 是一专门用于编程的开源模型，它们在基准测试中表现优异，同时具有较少的参数数量。些模型的特点包括灵活的规模选择、基于广泛训练数据的逻辑推理能力和良好的性能未来，IBM 还计划不断改进和更新这些模型，以满足不同编程任务的需求。产品入口: ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人