稀宇科技推出万亿 MoE 模型 abab 6.5

稀宇科技推出万亿MoE模型abab6.54月17日,稀宇科技MiniMax正式推出abab6.5系列模型。abab6.5系列包含两个模型:abab6.5和abab6.5s。据介绍,abab6.5包含万亿参数,支持200ktokens的上下文长度;abab6.5s跟abab6.5使用了同样的训练技术和数据,但是更高效,支持200ktokens的上下文长度,可以1秒内处理近3万字的文本。在各类核心能力测试中,abab6.5开始接近GPT-4、Claude-3、Gemini-1.5等大语言模型。

相关推荐

封面图片

MiniMax 发布万亿 MoE 模型 abab 6.5

MiniMax发布万亿MoE模型abab6.5MiniMax正式推出abab6.5系列模型,包含两个模型:abab6.5和abab6.5s。其中abab6.5包含万亿参数,支持200ktokens的上下文长度;abab6.5s跟abab6.5使用了同样的训练技术和数据,但是更高效,支持200ktokens的上下文长度,可以1秒内处理近3万字的文本。

封面图片

MiniMax 上线 C 端产品海螺 AI

MiniMax上线C端产品海螺AI5月15日,大模型公司MiniMax宣布上架C端产品“海螺AI”,支持输入200ktokens的上下文长度,1秒内处理近3万字的文本,进行书籍、长篇报告、学术论文等长篇内容的阅读、分析和文本写作。目前这款产品在官网以及应用端APP上线。海螺AI接入了MiniMax自研的多模态大模型,包括万亿参数MoE大语言模型abab6.5,语音大模型和图像大模型。(界面)

封面图片

从通用人工智能(AGI)创业公司北京月之暗面科技有限公司获悉,该公司推出的Kimi智能助手已支持200万字超长无损上下文,预计今

从通用人工智能(AGI)创业公司北京月之暗面科技有限公司获悉,该公司推出的Kimi智能助手已支持200万字超长无损上下文,预计今年将开启商业化模式。月之暗面创始人杨植麟表示,通往通用人工智能,无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化。(澎湃)

封面图片

Meta宣布推出Llama 2(羊驼2) 提供7B~70B模型 开源免费可商用

Meta宣布推出Llama2(羊驼2)提供7B~70B模型开源免费可商用今天Meta发布Llama2也就是羊驼2模型,提供7B、13B和70B参数版本,该模型开源、免费、可商用,这也是为什么最近一段时间有大量新模型出现,对开源社区来说,只要有高质量模型被开源出来,那接下来就是社区成员登场,微调、优化、定制、整合,然后就可以生成更多模型了。羊驼2预训练模型接受了2万亿个tokens的训练,上下文长度是Llama1的两倍,是的其上下文长度从2048提升到了4096,其微调模型接受了超过100万个人类标注的训练。根据MetaAI研究团队的测试,羊驼2在不少测试中表现都比较优异(相对其他开源模型),包括推理、编程、熟练程度和知识测试。(需要提供Email地址)来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

中文LLaMA&Alpaca大模型的第二期项目 | link

中文LLaMA&Alpaca大模型的第二期项目本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持FlashAttention-2训练。标准版模型支持4K上下文长度,长上下文版模型支持16K上下文长度,并可通过NTK方法最高扩展至24K+上下文长度。本项目主要内容针对Llama-2模型扩充了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型开源了预训练脚本、指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU快速在本地进行大模型量化和部署体验支持,,,,,等LLaMA生态已开源的模型基座模型:Chinese-LLaMA-2-7B,Chinese-LLaMA-2-13B聊天模型:Chinese-Alpaca-2-7B,Chinese-Alpaca-2-13B长上下文模型:Chinese-LLaMA-2-7B-16K,Chinese-LLaMA-2-13B-16K,Chinese-Alpaca-2-7B-16K,Chinese-Alpaca-2-13B-16K

封面图片

百川智能发布Baichuan2-192K大模型 | 详情

百川智能发布Baichuan2-192K大模型上下文窗口长度高达192K,是目前全球最长的上下文窗口,能够一次处理约35万个汉字。官方宣称:Baichuan2-192K不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。10项长文本评测7项取得SOTA,全面领先Claude2Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。此外,LongEval的评测结果显示,在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能,而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外,在窗口长度超过80K后整体效果下降非常严重。Baichuan2-192K正式开启内测,已落地法律、媒体等诸多真实场景Baichuan2-192K现已正式开启内测,以API调用的方式开放给百川智能的核心合作伙伴,已经与财经类媒体及律师事务所等机构达成了合作,将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中,不久后将全面开放。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人