今天,Yam Peleg 泄漏了 GPT-4 的一些消息。
今天,Yam Peleg 泄漏了 GPT-4 的一些消息。
大模型时代结束了?或许对于其他玩家来说,的确如此。
据信,GPT-4 将是 GPT-3 的 10x 规模,拥有 1.8T 参数,120 层。
他们采用了混合 MoE 模型,16 experts,每个 111B 参数。
训练规模是 13T token,文本内容 2 epochs,代类则是 4.
预训练时采用的是 8K 语境(seqlen),精调后能达到 32K。
Batch Size 达到 6000 万。
采用了 8 路 tensor parallelism(NVLink 限制),总之把 A100 券用了。
预计是 25000 A100,训练了 90-100 天,MFU 预计 32-36%,2.15e25FLOPS
预计价格是 6300 万美元。