MiniMax 发布万亿 MoE 模型 abab 6.5

MiniMax发布万亿MoE模型abab6.5MiniMax正式推出abab6.5系列模型,包含两个模型:abab6.5和abab6.5s。其中abab6.5包含万亿参数,支持200ktokens的上下文长度;abab6.5s跟abab6.5使用了同样的训练技术和数据,但是更高效,支持200ktokens的上下文长度,可以1秒内处理近3万字的文本。

相关推荐

封面图片

稀宇科技推出万亿 MoE 模型 abab 6.5

稀宇科技推出万亿MoE模型abab6.54月17日,稀宇科技MiniMax正式推出abab6.5系列模型。abab6.5系列包含两个模型:abab6.5和abab6.5s。据介绍,abab6.5包含万亿参数,支持200ktokens的上下文长度;abab6.5s跟abab6.5使用了同样的训练技术和数据,但是更高效,支持200ktokens的上下文长度,可以1秒内处理近3万字的文本。在各类核心能力测试中,abab6.5开始接近GPT-4、Claude-3、Gemini-1.5等大语言模型。

封面图片

MiniMax 上线 C 端产品海螺 AI

MiniMax上线C端产品海螺AI5月15日,大模型公司MiniMax宣布上架C端产品“海螺AI”,支持输入200ktokens的上下文长度,1秒内处理近3万字的文本,进行书籍、长篇报告、学术论文等长篇内容的阅读、分析和文本写作。目前这款产品在官网以及应用端APP上线。海螺AI接入了MiniMax自研的多模态大模型,包括万亿参数MoE大语言模型abab6.5,语音大模型和图像大模型。(界面)

封面图片

百川智能发布Baichuan2-192K大模型 | 详情

百川智能发布Baichuan2-192K大模型上下文窗口长度高达192K,是目前全球最长的上下文窗口,能够一次处理约35万个汉字。官方宣称:Baichuan2-192K不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。10项长文本评测7项取得SOTA,全面领先Claude2Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。此外,LongEval的评测结果显示,在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能,而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外,在窗口长度超过80K后整体效果下降非常严重。Baichuan2-192K正式开启内测,已落地法律、媒体等诸多真实场景Baichuan2-192K现已正式开启内测,以API调用的方式开放给百川智能的核心合作伙伴,已经与财经类媒体及律师事务所等机构达成了合作,将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中,不久后将全面开放。

封面图片

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。#ai##llm#

谷歌发布了Gemini1.5模型,最主要的升级是支持了高达100万的上下文长度,秒杀了所有模型。Gemini1.5基于Transformer和MoE架构的研究和工程创新,提高了训练和服务的效率。Gemini1.5Pro是一个中等规模的多模态模型,适用于多种任务,并引入了在长上下文理解方面的实验性特性。它标准的上下文窗口为128,000个Token,但现在已经可以通过AIStudio和VertexAI向开发者和企业客户提供高达100万个Token的私人预览。1.5Pro可以一次处理大量信息——包括1小时的视频、11小时的音频、包含超过30,000行代码的代码库或超过700,000个单词。Gemini1.5Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini1.0Pro,并且与1.0Ultra在同样的基准测试上表现相当。此外,Gemini1.5Pro在进行长上下文窗口的测试中表现出色,在NIAH评估中,它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。了解更多:#context-window

封面图片

中文LLaMA&Alpaca大模型的第二期项目 | link

中文LLaMA&Alpaca大模型的第二期项目本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持FlashAttention-2训练。标准版模型支持4K上下文长度,长上下文版模型支持16K上下文长度,并可通过NTK方法最高扩展至24K+上下文长度。本项目主要内容针对Llama-2模型扩充了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型开源了预训练脚本、指令精调脚本,用户可根据需要进一步训练模型使用个人电脑的CPU/GPU快速在本地进行大模型量化和部署体验支持,,,,,等LLaMA生态已开源的模型基座模型:Chinese-LLaMA-2-7B,Chinese-LLaMA-2-13B聊天模型:Chinese-Alpaca-2-7B,Chinese-Alpaca-2-13B长上下文模型:Chinese-LLaMA-2-7B-16K,Chinese-LLaMA-2-13B-16K,Chinese-Alpaca-2-7B-16K,Chinese-Alpaca-2-13B-16K

封面图片

15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。

15号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟Gemini1.5Pro的能力差不多了。支持100万上下文的文本检索,可以分析超过1小时的视频,支持视频生成和图片生成。模型介绍:我们创建了一个包含多样视频和书籍的大型数据集,运用了RingAttention(环形注意力)技术来高效训练长序列,并逐步将上下文大小从4千扩展至100万个标记。本文的主要贡献包括:(a)构建了具有最大上下文大小的神经网络:我们训练了一个在处理长视频和语言序列方面具有前所未有的大上下文规模的Transformer(变换器),在复杂的检索任务和长视频理解方面设立了新的标准。(b)提出了克服视觉-语言训练挑战的多种解决方案,包括使用遮蔽序列打包技术混合不同长度的序列、通过损失加权平衡语言和视觉的重要性,以及为长序列对话创建由模型生成的问答数据集。(c)实现了一种高度优化的训练方案,结合了RingAttention、遮蔽序列打包等关键特性,适用于数百万长度的多模态序列。(d)完全开源了一系列拥有70亿参数的模型家族,能够处理长达100万标记以上的长文本文档(LWM-Text,LWM-Text-Chat)和视频(LWM,LWM-Chat)。这项工作为在大规模的长视频和语言数据集上训练,进而理解人类知识和多模态世界,以及开发更广泛的AI能力铺平了道路。项目页面:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人