[整理] Boris Dayma 对谷歌 Gemma 技术报告的一些总结,觉得技术报告太长懒得看的可以看看:
[整理] Boris Dayma 对谷歌 Gemma 技术报告的一些总结,觉得技术报告太长懒得看的可以看看: ◆这个模型的架构(architecture)和llama非常相似。 ◆7B模型使用了惊人的6T tokens! ◆词汇量巨大。 ◆在前馈神经网络(FFN)中使用了GeGLU,我希望他们能对那里使用的维度进行更深 ...
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人