专为智能手机设计的高性能大型语言模型推理框架，支持高达47B参数的MoE模型，速度高达每秒11.68个token，比现有框架快2

阶跃星辰发布 Step-2 万亿参数 MoE 语言大模型预览版

阶跃星辰发布Step-2万亿参数MoE语言大模型预览版在今日上海开幕的2024全球开发者先锋大会上，通用大模型创业公司阶跃星辰正式对外亮相。阶跃星辰研发的Step-1V千亿参数多模态大模型，在中国权威的大型模型评估平台“司南”（OpenCompass）多模态模型评测榜单中位列第一，性能比肩GPT-4V。阶跃星辰创始人、CEO姜大昕博士在大会上正式对外发布了Step-2万亿参数MoE语言大模型预览版。模型采用MoE架构，聚焦深度智能的探索，并提供API接口给部分合作伙伴试用。据了解，参数量从千亿到万亿，对算力、系统、数据、算法四个方面都提出了极高的要求，业内只有极少数公司能做到。训练万亿参数模型体现了阶跃星辰的核心技术能力，也表明阶跃星辰在通用人工智能领域追赶OpenAI的实力和决心。

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

昆仑万维开源 2 千亿稀疏大模型天工 MoE，全球首创能用 4090 推理

昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理据昆仑万维官微，2024年6月3日，昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoEUpcycling技术应用并落地的开源千亿MoE大模型，也是首个支持用单台4090服务器推理的开源千亿MoE大模型。

Command-R：多语言、高性能、可定制：350亿参数的开源语言模型

：多语言、高性能、可定制：350亿参数的开源语言模型-C4AICommand-R是一个350亿参数的高性能生成式模型，由Cohere和CohereForAI联合开发。-Command-R是一个大型语言模型，其开放权重针对多种用例进行了优化，包括推理、摘要和问答。-Command-R具有多语言生成能力，在10种语言上进行了评估，并具有高性能的RAG(Retrieval-AugmentedGeneration)能力。-该模型的许可证为CC-BY-NC，使用时还需遵守C4AI的可接受使用政策。-Command-R的上下文长度为128K，可以使用HuggingFace的Transformers库进行调用和使用。-C4AICommand-R的发布展示了Cohere在开发大型语言模型方面的实力。350亿参数的模型规模处于业界领先水平，有望在多个应用领域取得突破。-Command-R的开放权重和对多种用例的优化，为开发者和研究者提供了灵活性和可定制性。这有助于促进模型的应用和创新。-多语言生成能力和高性能RAG能力的结合，使Command-R在跨语言任务和知识密集型任务上具有独特优势。这可能推动自然语言处理技术在全球范围内的普及和应用。-CC-BY-NC许可证和C4AI的可接受使用政策体现了Cohere对于负责任AI开发的重视。在开放模型的同时，设置合理的使用边界，有助于防范潜在的滥用风险。-基于HuggingFace生态系统发布模型，降低了用户的使用门槛。这种与主流开源社区的融合，有利于Command-R的推广和迭代。-尽管Command-R的开放权重提供了灵活性，但对于缺乏计算资源的中小型开发者而言，350亿参数的模型规模可能难以承受。这可能加剧AI开发的门槛和不平等。-Command-R在多语言任务上的出色表现，可能促使更多开发者将其应用于跨文化交流和全球化业务。但过度依赖单一模型，可能忽视了不同语言和文化的独特性。-开放模型虽然有利于创新，但也可能加剧恶意使用和滥用的风险。即使有使用政策的约束，在实践中难以对每一个应用进行有效监管。这需要技术和制度的双重发力。

上海交大发布大模型推理框架PowerInfer-2，手机可流畅运行

上海交大发布大模型推理框架PowerInfer-2，手机可流畅运行上海交大IPADS实验室推出了PowerInfer-2.0，一款面向智能手机的大模型推理引擎，显著提升了在内存有限的设备上运行大型语言模型的能力。该框架通过动态神经元缓存和以神经元簇为粒度的异构计算技术，实现了与开源推理框架相比高达29倍的推理速度提升。此外，团队还使用高质量、多样化的训练数据，让模型在稀疏化后更好地保持和提升性能。同时，该技术不仅适用于手机，还有望扩展到车载设备和智能家居等领域。上海交大IPADS团队已在Huggingface上开放了稀疏化的模型权重，预示着该技术有望从实验室走向实际应用。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

阿里云：通义千问 720 亿参数模型开源适配企业级、科研级高性能应用

阿里云：通义千问720亿参数模型开源适配企业级、科研级高性能应用阿里云今天举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B。Qwen-72B在10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama2-70B和大部分商用闭源模型。未来，企业级、科研级的高性能应用，也有了开源大模型这一选项。通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此，通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。