《DeepSeek_R1 论文》

《DeepSeek_R1 论文》 简介:该研究聚焦于高效智能模型的开发与优化,提出了一种创新的算法架构及训练策略,在保持较低计算成本的同时显著提升任务性能。其方法在自然语言处理和多模态任务中展现出较强泛化能力,为轻量化AI应用提供了新思路。 亮点:1. 引入动态参数共享机制,降低模型复杂度;2. 提出跨模态对齐损失函数,增强多任务适应性;3. 开源包含千亿token的高质量训练数据集。 标签:#人工智能 #模型优化 #多模态学习 #高效训练 #开源数据 更新日期:2025-10-12 14:30:45 链接:/url/

相关推荐

封面图片

《DeepSeek_V3 技术报告》

《DeepSeek_V3 技术报告》 简介:一款基于先进架构设计的智能模型,具备强大的多模态处理与复杂推理能力,适用于智能交互、数据分析和创意内容生成等场景。通过算法优化与训练数据增强,显著提升任务完成准确性和响应效率,支持长文本上下文理解及跨领域知识融合。 亮点: - 千亿级参数混合专家架构实现精度与效能平衡 - 支持文本/代码/图像多模态输入输出交互 - 推理速度较前代提升300%以上 - 集成2025Q3前全领域知识库实时检索 - 内置合规安全模块实现内容精准过滤 标签: #大型语言模型 #多模态支持 #高效推理 #智能交互 #安全合规 #DeepSeek_V3 更新日期:2025-07-05 14:35:20 链接:/url/

封面图片

昆仑万维开源了自己的Skywork大模型 | 本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Ch

昆仑万维开源了自己的Skywork大模型 | 本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。 Skywork开源项目的特点有: Skywork-13B-Base模型在高质量清洗过滤的3.2万亿个多语言(主要是中文和英文)和代码数据上进行预训练,它在多种评测和各种基准测试上都展现了同等规模模型的最佳效果。 Skywork-13B-Chat模型具备强大的对话能力,我们在文创领域进行了进一步的针对性增强。我们通过构建一万多条高质量指令数据集,在10个文创任务上进行了针对性微调,使我们的模型在文创任务中能够接近ChatGPT的效果。此外,我们开源了针对这10个文创任务上的大约500条样本组成的benchmark。 Skywork-13B-Math模型经过专门的数学能力强化训练。在13B参数规模下,我们的模型在GSM8K评测上得分第一,同时在MATH数据集以及CMATH上也表现优异,处于13B模型顶尖水平。 Skywork-13B-MM多模态模型支持用户输入图片信息进行问答,对话等任务。 Skywork/Skypile-150B数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总的token数量约为150B,是目前开源最大中文数据集。 除此之外,我们还公开了训练Skywork-13B模型中使用的评估方法、数据配比研究和训练基础设施调优方案等信息。我们希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。

封面图片

TencentPretrain:腾讯预训练模型框架

TencentPretrain:腾讯预训练模型框架 预训练已经成为人工智能技术的重要组成部分,为大量人工智能相关任务带来了显著提升。TencentPretrain是一个用于对文本、图像、语音等模态数据进行预训练和微调的工具包。TencentPretrain遵循模块化的设计原则。通过模块的组合,用户能迅速精准的复现已有的预训练模型,并利用已有的接口进一步开发更多的预训练模型。通过TencentPretrain,我们建立了一个模型仓库,其中包含不同性质的预训练模型(例如基于不同模态、编码器、目标任务)。用户可以根据具体任务的要求,从中选择合适的预训练模型使用。TencentPretrain继承了的部分工作,并在其基础上进一步开发,形成支持多模态的预训练模型框架。 TencentPretrain有如下几方面优势: 可复现 TencentPretrain已在许多数据集上进行了测试,与原始预训练模型实现(例如BERT、GPT-2、ELMo、T5、CLIP)的表现相匹配 模块化 TencentPretrain使用解耦的模块化设计框架。框架分成Embedding、Encoder、Target等多个部分。各个部分之间有着清晰的接口并且每个部分包括了丰富的模块。可以对不同模块进行组合,构建出性质不同的预训练模型 多模态 TencentPretrain支持文本、图像、语音模态的预训练模型,并支持模态之间的翻译、融合等操作 模型训练 TencentPretrain支持CPU、单机单GPU、单机多GPU、多机多GPU训练模式,并支持使用DeepSpeed优化库进行超大模型训练 模型仓库 我们维护并持续发布预训练模型。用户可以根据具体任务的要求,从中选择合适的预训练模型使用 SOTA结果 TencentPretrain支持全面的下游任务,包括文本/图像分类、序列标注、阅读理解、语音识别等,并提供了多个竞赛获胜解决方案 预训练相关功能 TencentPretrain提供了丰富的预训练相关的功能和优化,包括特征抽取、近义词检索、预训练模型转换、模型集成、文本生成等 ||#框架

封面图片

《DeepSeek满血版》

《DeepSeek满血版》 简介:《DeepSeek满血版》可能是DeepSeek的增强版本,具备更强大的功能和性能。它或许在原有基础上优化了算法,提升了数据处理能力,从而能更快速、精准地处理各类任务。比如在文本生成方面,生成的内容质量更高、逻辑更连贯;在智能问答场景中,能给出更准确、详细的答案。无论是用于学术研究、商业分析还是日常办公,满血版都旨在为用户提供更高效、优质的服务体验,满足不同用户在多场景下对人工智能技术的需求 标签: #DeepSeek #人工智能 #优化版本 #高效服务 文件大小:NG 链接:

封面图片

【李开复:未来的大模型将拥有多模态和执行任务的功能】

【李开复:未来的大模型将拥有多模态和执行任务的功能】 今日中关村论坛上,创新工场董事长李开复对AI2.0中短期做了预测 ,威力强大的大模型将彻底变革人工智能,更多训练数据会带来更高的威力,但同时,高质量数据非常重要,未来的大模型将拥有多模态的功能,和执行任务的功能。AI2.0将成为许多人工智能大型挑战的第一推手,从对话助手和人工智能伴侣(~1年)到元宇宙(5年以上)。

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。 从社区讨论来看,这个研究可以大幅压缩模型体积,让 120B 大小的模型能在 24G 显存的设备上运行。 再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。 论文简介: 《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》 一种1位的LLM变体,命名为BitNet b1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。 更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。 论文:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人