今天,Yam Peleg 泄漏了 GPT-4 的一些消息。
今天,Yam Peleg 泄漏了 GPT-4 的一些消息。 大模型时代结束了?或许对于其他玩家来说,的确如此。 据信,GPT-4 将是 GPT-3 的 10x 规模,拥有 1.8T 参数,120 层。 他们采用了混合 MoE 模型,16 experts,每个 111B 参数。 训练规模是 13T token,文本内容 2 epochs,代类则是 4. 预训练时采用的是 8K 语境(seqlen),精调后能达到 32K。 Batch Size 达到 6000 万。 采用了 8 路 tensor parallelism(NVLink 限制),总之把 A100 券用了。 预计是 25000 A100,训练了 90-100 天,MFU 预计 32-36%,2.15e25FLOPS 预计价格是 6300 万美元。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人