今天，Yam Peleg 泄漏了 GPT-4 的一些消息。

今天，YamPeleg泄漏了GPT-4的一些消息。大模型时代结束了？或许对于其他玩家来说，的确如此。据信，GPT-4将是GPT-3的10x规模，拥有1.8T参数，120层。他们采用了混合MoE模型，16experts，每个111B参数。训练规模是13Ttoken，文本内容2epochs，代类则是4.预训练时采用的是8K语境（seqlen），精调后能达到32K。BatchSize达到6000万。采用了8路tensorparallelism（NVLink限制），总之把A100券用了。预计是25000A100，训练了90-100天，MFU预计32-36%，2.15e25FLOPS预计价格是6300万美元。

在Telegram中查看

相关推荐

GPT-4 有 1.8 万亿参数

GPT-4有1.8万亿参数OpenAI今年初公布的新一代大模型GPT-4的技术细节泄露，它有1.8万亿个参数，利用了16个混合专家模型（mixtureofexperts），每个有1110亿个参数，每次前向传递路由经过两个专家模型。它有550亿个共享注意力参数，使用了包含13万亿tokens的数据集训练，tokens不是唯一的，根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k，32k版本是对8k微调的结果。如果是在云端进行训练，以每A100小时1美元计算，那么一次的训练成本就高达6300万美元。不过今天的训练成本能降至2150万美元。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

硅谷圈黑客爆料 GPT-4 参数

硅谷圈黑客爆料GPT-4参数在AI博客节目LatentSpace上，GeorgeHotz(iPhone和PS3破解第一人)爆料GPT-4其实只比1750亿参数的GPT-3大一些，任何人都能用8倍资金得到它。GPT-4是一个8路混合模型，由8个2200亿参数的专家模型组合而成，OpenAI使用了不同数据训练了同一个模型8次，然后用了一些技巧使它实际做了16-iter推理，混合模型是在没有新想法时所会做的。——

GPT-4详细架构技术细节泄漏，训练一次要 6300 万美元

今天上午一篇关于GPT-4详细技术架构和训练过程的文章泄漏了，虽然没有提及信源在哪但看起来还是挺靠谱的，所以我翻译了一下。信息量非常大全文可以在这里看：https://mp.weixin.qq.com/s/E7uP48xfbZOtUk8GXZYbmQ有关GPT-4的信息包括模型架构、训练基础设施、推断基础设施、参数数量、训练数据集构成、标记数量、层次数量、并行策略、多模态视觉适应、工程权衡背后的思考过程、独特实施的技术以及解决与巨型模型推断相关的瓶颈的方法。此外，文章还介绍了在A100上训练和推断GPT-4的成本以及与H100上下一代模型架构的比例关系。

▶ GPT 4: https://openai.com/research/gpt-4

▶GPT4:https://openai.com/research/gpt-4▶APIWaitlist：https://openai.com/waitlist/gpt-4-api▶GPT-4DeveloperLivestreamhttps://m.youtube.com/watch?v=outcGtbnMuQ看图……（后面补了个P9，直播里的手稿拍照转html）邮件原文（翻译byChatGPT）我们已经创建了GPT-4，这是我们最强大的模型。我们今天开始向API用户推出该模型。请于今天（3月14日）下午1点（太平洋时间）加入我们，观看GPT-4的现场演示。▶关于GPT-4由于其更广泛的通用知识和先进的推理能力，GPT-4可以更准确地解决困难问题。▶您可以通过以下方式了解更多信息：·GPT-4概述页面以及早期客户使用该模型构建的内容。·博客文章详细介绍了该模型的功能和局限性，包括评估结果。（一开始的那个链接）▶可用性·API等待列表：请注册我们的等待列表，以获得受限制的GPT-4API访问权限，该API使用与gpt-3.5-turbo相同的ChatCompletionsAPI。我们将从今天开始邀请一些开发人员，并逐渐扩大可用性和速率限制，以平衡容量和需求。（我也放在前面了）·优先访问：开发人员可以通过为OpenAIEvals贡献模型评估来获得GPT-4的优先API访问权限，这将有助于我们改进该模型，使其对所有人都更好。https://github.com/openai/evals·ChatGPTPlus：ChatGPTPlus订户将可以在chat.openai.com上使用GPT-4，并获得动态调整的使用上限。由于我们的容量非常有限，因此使用上限将取决于需求和系统性能。API访问仍将通过等待列表进行。▶API定价·具有8K上下文窗口（约13页文本）的gpt-4将每1K提示令牌收取0.03美元，每1K完成令牌收取0.06美元。·具有32K上下文窗口（约52页文本）的gpt-4-32k将每1K提示令牌收取0.06美元，每1K完成令牌收取0.12美元。▶直播

OpenAI新GPT-4 Turbo模型已可使用四项能力提升

OpenAI新GPT-4Turbo模型已可使用四项能力提升不过更强大的能力同时也意味着更长的响应时间与更高的成本，对于预算有限的项目来说，这也是一个重要的考虑因素。据悉，OpenAI在4月10日正式发布了GPT-4Turbo，用户可以根据需求构建自己的GPT。GPT-4Turbo和GPT-4的主要区别在于几个方面：上下文窗口：GPT-4Turbo拥有更大的上下文窗口，可以处理高达128K个token，而GPT-4的上下文窗口较小。模型大小：GPT-4Turbo的模型大小为100B参数，这意味着它可以处理更多信息，生成更复杂和细腻的输出，而GPT-4的模型大小为10B参数。知识截止日期：GPT-4Turbo的训练数据包含到2023年4月的信息，而GPT-4的数据截止于2021年9月，后来扩展到2022年1月。成本：对于开发者来说，GPT-4Turbo的使用成本更低，因为它的运行成本对OpenAI来说更低。功能集：GPT-4Turbo提供了一些新功能，如JSON模式、可复现输出、并行函数调用等。总的来说，GPT-4Turbo的更新更重要的是完善了功能，增加了速度，准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致：重视优化，面向应用。而有可能再次颠覆AI领域的GPT-5，预计将在夏季推出。...PC版：https://www.cnbeta.com.tw/articles/soft/1427055.htm手机版：https://m.cnbeta.com.tw/view/1427055.htm

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布，其研究人员训练了一个基于GPT-4的模型，它被称为CriticGPT，用于捕捉ChatGPT代码输出中的错误。简单来说就是，CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称，如果通过CriticGPT获得帮助审查ChatGPT编写的代码，人类训练者的审查效果比没有获得这种帮助的人强60%；在CriticGPT帮助下，他们得出的批评结论比自己单独做的更全面。群友：狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人