今天,Yam Peleg 泄漏了 GPT-4 的一些消息。
今天,YamPeleg泄漏了GPT-4的一些消息。大模型时代结束了?或许对于其他玩家来说,的确如此。据信,GPT-4将是GPT-3的10x规模,拥有1.8T参数,120层。他们采用了混合MoE模型,16experts,每个111B参数。训练规模是13Ttoken,文本内容2epochs,代类则是4.预训练时采用的是8K语境(seqlen),精调后能达到32K。BatchSize达到6000万。采用了8路tensorparallelism(NVLink限制),总之把A100券用了。预计是25000A100,训练了90-100天,MFU预计32-36%,2.15e25FLOPS预计价格是6300万美元。