DeepSeek-V2 这个模型确实很强,尝试了一下我日常的任务都能胜任。

DeepSeek-V2这个模型确实很强,尝试了一下我日常的任务都能胜任。主要是太便宜了,开放平台送的十块钱总共有500万Token。冲个五十块钱估计够我用好几年。模型为MOE架构总参数236B激活参数21B,开源版本上下文128K,API上下文32K。在8卡H800机器上,输出吞吐量超过每秒5万Token。模型权重下载:https://huggingface.co/deepseek-ai

相关推荐

封面图片

Databricks 发布最大开源大语言模型 DBRX

Databricks发布最大开源大语言模型DBRX美国AI初创公司Databricks周三公布,该公司开发的通用大语言模型DBRX将开源。DBRX在语言理解、编程、数学和逻辑方面轻松击败了Meta的Llama2-70B、法国MixtralAI公司的Mixtral和马斯克旗下xAI开发的Grok-1这类当前流行的开源模型。DBRX在30多种不同的最先进模型(SOTA)基准指标测试中,均优于前述三种大模型。DBRX使用混合专家架构(MoE),拥有16个专家模型,共1320亿参数。该模型使用3072英伟达H100GPU在12万亿个token的数据集上进行训练,最大支持32k的上下文窗口。同时,Databrick也开源了该模型经过指令微调(instructfinetune)的版本。——,

封面图片

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。#ai##llm#

谷歌发布了Gemini1.5模型,最主要的升级是支持了高达100万的上下文长度,秒杀了所有模型。Gemini1.5基于Transformer和MoE架构的研究和工程创新,提高了训练和服务的效率。Gemini1.5Pro是一个中等规模的多模态模型,适用于多种任务,并引入了在长上下文理解方面的实验性特性。它标准的上下文窗口为128,000个Token,但现在已经可以通过AIStudio和VertexAI向开发者和企业客户提供高达100万个Token的私人预览。1.5Pro可以一次处理大量信息——包括1小时的视频、11小时的音频、包含超过30,000行代码的代码库或超过700,000个单词。Gemini1.5Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini1.0Pro,并且与1.0Ultra在同样的基准测试上表现相当。此外,Gemini1.5Pro在进行长上下文窗口的测试中表现出色,在NIAH评估中,它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。了解更多:#context-window

封面图片

IBM发布开源模型Granite Code 在编程任务中超过谷歌模型

IBM发布开源模型GraniteCode在编程任务中超过谷歌模型IBM最近发布了一组名为"GraniteCode"的开源型,旨在帮助企业完成各种软件开发任务,并在基准测试中表现出色。这些模型不仅过了一些较大的开源竞争对手,而且在编程任务中展现出了强大的性能。GraniteCode型分为基础模型和指导模型,每种模型都有四个不同规模的变种,参数数量从30到340亿不等。这些模型的上下文窗口相对较短,例如,其中一个模型的上下文窗口只有128K,这限制了其在包含特定文档或自己的代码库等提示信息时的有效性。不过,IBM目正在开发具有更大上下文窗口的版本。基础模型的训练分为两个阶段。第一阶段使用自116种编程语言的3-4万亿个标记进行训练,以建立广泛的理解能力。在第阶段,这些模型使用来自高质量代码和自然语言数据的5000亿个标记进行进一步训练,以强逻辑推理能力。指导模型是通过对基础模型进行改进而创建的,改进方法包括筛选提交记录、自然语言指令记录和合成生成的代码数据集。在包括代码合成、调试、解释、编辑、学推理等多个基准测试中,GraniteCode模型在各个规模和基准测试中表现出色,常常超过开源模型两倍以上的大小。例如,在HumanEvalPack基准测试中,Granite-8B-Code-Base的平均得为33.2%,超过Google最佳表现的CodeGemma-8B模型的21.3%,尽管Granite-8-Code-Base所使用的标记数量明显较少。这些模型的大部分训练数据来自一个清理过的GitHub集StarCoderData和其他公开可用的代码库。这一点非常重要,因为目前有一些关于其他代码型(包括GitHub本身)涉嫌侵犯训练数据版权的诉讼。IBM计划定期更新这些模型,很快将推出具有更大上下文窗口以及针对Python和Java的专业化版本。这些模型已经在HuggingFaceGitHub上可用,并且也是IBM的watsonx企业平台的一部分。IBM的GraniteCode是一专门用于编程的开源模型,它们在基准测试中表现优异,同时具有较少的参数数量。些模型的特点包括灵活的规模选择、基于广泛训练数据的逻辑推理能力和良好的性能未来,IBM还计划不断改进和更新这些模型,以满足不同编程任务的需求。产品入口:https://top.aibase.com/tool/granite-code-models...PC版:https://www.cnbeta.com.tw/articles/soft/1430826.htm手机版:https://m.cnbeta.com.tw/view/1430826.htm

封面图片

OpenAI新GPT-4 Turbo模型已可使用 四项能力提升

OpenAI新GPT-4Turbo模型已可使用四项能力提升不过更强大的能力同时也意味着更长的响应时间与更高的成本,对于预算有限的项目来说,这也是一个重要的考虑因素。据悉,OpenAI在4月10日正式发布了GPT-4Turbo,用户可以根据需求构建自己的GPT。GPT-4Turbo和GPT-4的主要区别在于几个方面:上下文窗口:GPT-4Turbo拥有更大的上下文窗口,可以处理高达128K个token,而GPT-4的上下文窗口较小。模型大小:GPT-4Turbo的模型大小为100B参数,这意味着它可以处理更多信息,生成更复杂和细腻的输出,而GPT-4的模型大小为10B参数。知识截止日期:GPT-4Turbo的训练数据包含到2023年4月的信息,而GPT-4的数据截止于2021年9月,后来扩展到2022年1月。成本:对于开发者来说,GPT-4Turbo的使用成本更低,因为它的运行成本对OpenAI来说更低。功能集:GPT-4Turbo提供了一些新功能,如JSON模式、可复现输出、并行函数调用等。总的来说,GPT-4Turbo的更新更重要的是完善了功能,增加了速度,准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致:重视优化,面向应用。而有可能再次颠覆AI领域的GPT-5,预计将在夏季推出。...PC版:https://www.cnbeta.com.tw/articles/soft/1427055.htm手机版:https://m.cnbeta.com.tw/view/1427055.htm

封面图片

Crzun: https://jandan.net/t/5654322这个图有意思,简单二创一下,送给蛋友

Crzun:https://jandan.net/t/5654322这个图有意思,简单二创一下,送给蛋友OO:547XX:15正义使者王大锤:这么直,高低是个紫装OO:142,XX:1fisher:属性:攻击距离+1OO:39,XX:1caishen:各位,别光说不练,标准各种尺寸的白蜡杆武术棍拼多多十块钱以下都能买到了,买不了吃亏买不了上当,赶紧练起来啊,先从满天星、翻江倒海、乱点天宫等等练起,可有意思了OO:34,XX:1一拳打死哈哈怪:第一才能拿的棍子OO:16,XX:1吃香菜的深海鱼:@正义使者王大锤木制的最多蓝色,金属紫色,稀有材料金色OO:14,XX:1

封面图片

通义千问70亿参数模型上线魔搭社区,开源免费可商用

通义千问70亿参数模型上线魔搭社区,开源免费可商用AI模型社区魔搭ModelScope上架两款开源模型和,阿里云确认其为通义千问70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。在多个权威测评中,通义千问7B模型取得了远超国内外同等尺寸模型的效果,成为当下业界最强的中英文7B开源模型。Qwen-7B是支持中、英等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型,已实现与人类认知对齐。开源代码支持对Qwen-7B和Qwen-7B-Chat的量化,支持用户在消费级显卡上部署和运行模型。https://modelscope.cn/models/qwen/Qwen-7B/summaryhttps://modelscope.cn/models/qwen/Qwen-7B-Chat/summaryhttps://github.com/QwenLM/Qwen-7B来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人