有人发现用2019年 GPT-2 的 1.5B 模型为基础，使用大规模指令集进行微调之后，模型指标竟然超越了2023年的羊驼 7

有人发现用2019年 GPT-2 的 1.5B 模型为基础，使用大规模指令集进行微调之后，模型指标竟然超越了2023年的羊驼 7B 模型。 OpenAI 这是领先了多少。。恐怖如斯（同时GPT-2当时国内每家大公司应该都搞了。。 anton: Fine tuned GPT-2 a 1.5B model from 2019 outperforming Alpaca LLaMA a 7B model from 2023...

在Telegram中查看

相关推荐

有人发现用2019年 GPT-2 的 1.5B 模型为基础，使用大规模指令集进行微调之后，模型指标竟然超越了2023年的羊驼 7

有人发现用2019年 GPT-2 的 1.5B 模型为基础，使用大规模指令集进行微调之后，模型指标竟然超越了2023年的羊驼 7B 模型。 OpenAI 这是领先了多少。。恐怖如斯（同时GPT-2当时国内每家大公司应该都搞了。。

全球最强大模型一夜易主 GPT-4被全面超越

全球最强大模型一夜易主 GPT-4被全面超越几项数学类评测都是用0-shot超越GPT-4的4-8 shot。除此之外，此前就以长下文窗口见长的Claude，此次全系列大模型可提供 200K 上下文窗口，并且接受超过100万Tokens输入。Gemini 1.5 Pro：嗯？目前可以免费体验第二强Sonnet，Opus最强版供Claude Pro付费用户使用，但大模型竞技场也可以白嫖。于是乎，网友们已经开始疯玩上了。（Doge）另外，Opus和Sonnet也开放API访问，开发者可以立即使用。有人直接艾特奥特曼：好了，你现在可以发布GPT-5了。不过奥特曼可能还在烦马斯克的诉讼……最新最强大模型发布此次Claude 3家族共有三个型号：小杯Haiku、中杯Sonnet以及大杯Opus，成本和性能依次递增。首先，在性能参数上，Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型：还有在视觉能力上，它能可以处理各种视觉格式，包括照片、图表、图形和技术图表。对于这样性能结果，有专业人士表达了自己的看法。比如爱丁堡大学博士生、中文大模型知识评估基准C – Eval提出者之一符尧就表示，像MMLU / GSM8K / HumanEval这些基准，已经严重饱和：所有模型的表现都相同。他认为，真正区分模型性能基准的是MATH and GPQA。另外，在拒绝回答人类问题方面，Claude 3也前进了一大步，拒绝回答的可能性显著降低在上下文以及记忆能力上，他们用大海捞针（Needle In A Haystack，NIAH）来评估衡量大模型从大量数据中准确召回信息的能力。结果Claude 3 Opus 不仅实现了近乎完美的召回率，超过 99% 的准确率。而且在某些情况下，它甚至能识别出 “针 “句似乎是人为插入原文的，从而识别出评估本身的局限性。还在生物知识、网络相关知识等方面取得了进步，但出于负责任的考虑，仍处于AI安全级别2（ASL-2）。其次，在响应时间上，Claude 3大幅缩短，做到近乎实时。官方介绍，即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。而中杯Sonnet能够在智能水平更高的基础上，速度比Claude 2和Claude 2.1快2倍，尤其擅长知识检索或自动化销售等需快速响应的任务。大杯Opus的智能水平最高，但速度不减，与Claude 2和Claude 2.1近似。官方对三款型号的模型也有清晰的定位。大杯Opus：比别家模型更智能。适用于复杂的任务自动化、研发和制定策略；中杯Sonnet：比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间；小杯Haiku：比同类模型更快速、实惠。适用于与用户实时互动，以及在简单工作流程中节省成本；在价格方面，最便宜的小杯定价0.25美元/1M tokens输入，最贵的大杯定价75美元/1M tokens输入对比GPT-4 Turbo，大杯价格确实高出不少，也能体现AnthropicAI对这款模型非常有信心。第一手实测反馈既如此，那就先免费来尝尝鲜~目前官方页面已经更新，Claude展现了“理解和处理图像”这一功能，包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。即使是模糊不清的有年代感的手记文档，也能准确OCR识别：底下写着：你正在使用他们第二大智能模型Claude 3 Sonnet。然鹅，可能是人太多的原因，尝试了几次都显示“Failed”不过，网友们也已经po出了一些测试效果，比如让Sonnet解谜题。为其提供一些示例，要求它找出数字之间的关系，比如“1 Dimitris 2 Q 3”，意思是3是1和2相加的结果。结果Sonnet成功解出-1.1加8等于6.9，所以“X”的值应该是6.9：还有网友发现Sonnet现在也可以读取 ASCII 码了，直呼：这是GPT-4 ++的水平了。在编程任务上，谁写的代码好先不说，Claude 3至少不会像GPT-4一样偷懒。还有体验到了Opus的玩家，在线给模型挖坑，可opus硬是完美躲避不上当：初看这效果，感觉还行。这时候应该艾特OpenAI：GPT-5在哪里？好了，感兴趣的朋友，可以戳下方链接体验啦~ ... PC版：手机版：

32K上下文，Mistral 7B v0.2基模型突然开源了

32K上下文，Mistral 7B v0.2基模型突然开源了这次开源的 Mistral 7B v0.2 Base Model ，是 Mistral-7B-Instruct-v0.2 背后的原始预训练模型，后者属于该公司的“Mistral Tiny”系列。此次更新主要包括三个方面：将 8K 上下文提到了 32K；Rope Theta = 1e6；取消滑动窗口。下载链接：…更新之后的性能对比是这样的：场外观众迅速跟进。有人评价说：“Mistral 7B 已经是同尺寸级别中最好的模型，这次改进是一个巨大的进步。我将尽快在这个模型上重新训练当前的许多微调。”Mistral AI 的第一个 7B 模型发布于 2023 年 9 月，在多个基准测试中实现了优于 Llama 2 13B 的好成绩，让 Mistral AI 一下子就打出了知名度。这也导致目前很多开源大模型都已不再对标 Llama 2，而是将 Mistral AI 旗下的各系列模型作为直接竞争对手。而 Mistral 7B v0.2 Base Model 对应的指令调优版本 Mistral-7B-Instruct-v0.2 在 2023 年 12 月就已开放测试，据官方博客介绍，该模型仅适用于英语，在 MT-Bench 上能够获得 7.6 分的成绩，逊于 GPT-3.5。此次开放基础模型之后，开发者们就可以根据自己的需求对这个“当前最好的 7B 模型”进行微调了。不过，7B 模型只能算是 Mistral AI 众多惊艳成果中的一项。这家公司的长远目标是对标 OpenAI。上个月底，Mistral AI 正式发布了“旗舰级”大模型 Mistral Large。与此前的一系列模型不同，这一版本性能更强，体量更大，直接对标 OpenAI 的 GPT-4。随着 Mistral Large 上线，Mistral AI 推出了名为 Le Chat 的聊天助手，也实现了对标 ChatGPT。而新模型的发布，也伴随着公司大方向的一次转型。人们发现， Mistral Large 并不是一个开源大模型有跑分、 API 和应用，就是不像往常一样有 GitHub 或是下载链接。与 Mistral Large 发布同时发生的，是 Mistral AI 与微软达成了长期合作的协议，不仅会将 Mistral Large 引入 Azure，还收获了微软 1600 万美元的投资。Mistral AI 对路透社表示，作为交易的一部分，微软将持有该公司少数股权，但未透露细节。未来，二者的合作主要集中在三个核心领域：超算基础设施：微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ，为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模；市场推广：微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务（MaaS）向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外，模型目录还提供了多种开源和商业模型。人工智能研发：微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。当被问及公司是否正在改变其开源商业模式时，Mistral AI 联合创始人 Arthur Mensch 在采访中表示：“我们从开源模式开始，任何人都可以免费部署，因为这是广泛分发它们并创造需求的一种方式。但从一开始，我们就提供了一种具有优化模型的商业模式，这让使该公司能够为模型开发所需的昂贵研究提供资金。”参考链接： 2024）即将于 2024 年 3 月 30 日至 31 日在上海徐汇西岸美高梅酒店举行。本次大会由中国人工智能学会（CAAI）主办，CAAI 具身智能专委会（筹）、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办，全球高校人工智能学术联盟协办，机器之心独家 AI 媒体合作。盛会将为具身智能领域的学术与产业界搭建一个交流合作的顶级平台，以广泛促进学术分享与交流、产业合作与互动，推动产学研联动发展，提升我国具身智能技术的研究与应用水平。 ... PC版：手机版：

最强开源大模型深夜炸场：Llama 3 王者归来表现直逼 GPT-4

最强开源大模型深夜炸场：Llama 3 王者归来表现直逼 GPT-4 Llama 3 70B: 第一档 AI 模型，媲美 Gemini 1.5 Pro、全面超越 Claude 大杯以上还只是 Meta 的开胃小菜，真正的大餐还在后头。在未来几个月，Meta 将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新模型。其中，超 400B 的重量级选手更是有望与 Claude 3 超大杯“掰手腕”。又一 GPT-4 级模型来了，Llama 3 开卷与前代 Llama 2 模型相比，Llama 3 可谓是迈上了一个新的台阶。得益于预训练和后训练的改进，本次发布的预训练和指令微调模型是当今 8B 和 70B 参数规模中的最强大的模型。同时后训练流程的优化显著降低了模型的出错率，增强了模型的一致性，并丰富了响应的多样性。扎克伯格曾在一次公开发言中透露，考虑到用户不会在 WhatsApp 中向 Meta AI 询问编码相关的问题，因此 Llama 2 在这一领域的优化并不突出。而这一次，Llama 3 在推理、代码生成和遵循指令等方面的能力取得了突破性的提升，使其更加灵活和易于使用。基准测试结果显示，Llama 3 8B 在 MMLU、GPQA、HumanEval 等测试的得分远超 Google Gemma 7B 以及 Mistral 7B Instruct。用扎克伯格的话来说，最小的 Llama 3 基本上与最大的 Llama 2 一样强大。Llama 3 70B 则跻身于顶尖 AI 模型的行列，整体表现全面碾压 Claude 3 大杯，与 Gemini 1.5 Pro 相比则是互有胜负。为了准确研究基准测试下的模型性能，Meta 还特意开发了一套新的高质量人类评估数据集。该评估集包含 1800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。出于避免 Llama 3 在此评估集上出现过度拟合，Meta 甚至禁止他们的研究团队访问该数据集。在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一较量中，Meta Llama 70B 都以“压倒性胜利”结束了比赛。据 Meta 官方介绍，Llama 3 在模型架构上选择了相对标准的纯解码器 Transformer 架构。与 Llama 2 相比，Llama 3 进行了几项关键的改进：使用具有 128K token 词汇表的 tokenizer，可以更有效地编码语言，从而显著提升模型性能在 8B 和 70B 模型中都采用分组查询注意力（GQA），以提高 Llama 3 模型的推理效率在 8192 个 token 的序列上训练模型，使用掩码来确保自注意力不会跨越文档边界。训练数据的数量和质量是推动下一阶段大模型能力涌现的关键因素。从一开始，Meta Llama 3 就致力于成为最强大的模型。Meta 在预训练数据上投入了大量的资金。据悉，Llama 3 使用从公开来源收集的超过 15T 的 token，是 Llama 2 使用数据集的七倍，其中包含的代码数据则是 Llama 2 的四倍。考虑到多语言的实际应用，超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成，不过，Meta 官方也坦言，与英语相比，这些语言的性能表现预计是稍逊一筹。为了确保 Llama 3 接受最高质量的数据训练，Meta 研究团队甚至提前使用启发式过滤器、NSFW 筛选器、语义重复数据删除方法和文本分类器来预测数据质量。值得注意的是，研究团队还发现前几代 Llama 模型在识别高质量数据方面出奇地好，于是让 Llama 2 为 Llama 3 提供支持的文本质量分类器生成训练数据，真正实现了“AI 训练 AI”。除了训练的质量，Llama 3 在训练效率方面也取得了质的飞跃。Meta 透露，为了训练最大的 Llama 3 模型，他们结合了数据并行化、模型并行化和管道并行化三种类型的并行化。在 16K GPU 上同时进行训练时，每个 GPU 可实现超过 400 TFLOPS 的计算利用率。研究团队在两个定制的 24K GPU 集群上执行了训练运行。为了最大限度地延长 GPU 的正常运行时间，研究团队开发了一种先进的新训练堆栈，可以自动执行错误检测、处理和维护。此外，Meta 还极大地改进了硬件可靠性和静默数据损坏检测机制，并且开发了新的可扩展存储系统，以减少检查点和回滚的开销。这些改进使得总体有效训练时间超过 95%，也让 Llama 3 的训练效率比前代足足提高了约 3 倍。开源 VS 闭源作为 Meta 的“亲儿子”，Llama 3 也顺理成章地被优先整合到 AI 聊天机器人 Meta AI 之中。追溯至去年的 Meta Connect 2023 大会，扎克伯格在会上正式宣布推出 Meta AI，随后便迅速将其推广至美国、澳大利亚、加拿大、新加坡、南非等地区。在此前的采访中，扎克伯格对搭载 Llama 3 的 Meta AI 更是充满信心，称其将会是人们可以免费使用的最智能的 AI 助手。我认为这将从一个类似聊天机器人的形式转变为你只需提出一个问题，它就能给出答案的形式，你可以给它更复杂的任务，它会去完成这些任务。当然，Meta AI 若是“ 尚未在您所在的国家/地区推出”，你可以采用开源模型最朴素的使用渠道全球最大的 AI 开源社区网站 Hugging Face。Perplexity、Poe 等平台也迅速宣布将 Llama 3 集成到平台服务上。你还可以通过调用开源模型平台 Replicate API 接口来体验 Llama 3，其使用的价格也已经曝光，不妨按需使用。有趣的是，在 Meta 官宣 Llama 3 前，有眼尖的网友发现微软的 Azure 市场偷跑 Llama 3 8B Instruct 版本，但随着消息的进一步扩散，当蜂拥而至的网友再次尝试访问该链接时，得到的只有“404”的页面。Llama 3 的到来，正在社交平台 X 上掀起一股新的讨论风暴。Meta AI 首席科学家、图灵奖得主 Yann LeCun 不仅为 Llama 3 的发布摇旗呐喊，并再次预告未来几个月将推出更多版本。就连马斯克也现身于该评论区，用一句简洁而含蓄的“Not bad 不错”，表达了对 Llama 3 的认可和期待。英伟达高级科学家 JIm Fan 则将注意力投向了即将推出的 Llama 3 400B+，在他看来，Llama 3 的推出已经脱离了技术层面的进步，更像是开源模型与顶尖闭源模型并驾齐驱的象征。从其分享的基准测试可以看出，Llama 3 400B+ 的实力几乎媲美 Claude 超大杯、以及新版 GPT-4 Turbo，虽然仍有一定的差距，但足以证明其在顶尖大模型中占有一席之地。今天恰逢斯坦福大学教授，AI 顶尖专家吴恩达的生日，Llama 3 的到来无疑是最特别的庆生方式。不得不说，如今的开源模型当真是百花齐放，百家争鸣。今年年初，手握 35 万块 GPU 的扎克伯格在接受 The Verge 的采访时描绘了 Meta 的愿景致力于打造 AGI（通用人工智能）。与不 open 的 OpenAI 形成鲜明对比，Meta 则沿着 open 的开源路线朝 AGI 的圣杯发起了冲锋。正如扎克伯格所说，坚定开源的 Meta 在这条充满挑战的征途中也并非毫无收获：我通常非常倾向于认为开源对社区和我们都有好处，因为我们会从创新中受益。在过去的一年中，整个 AI 圈都在围绕开源或闭源的路线争论不休，甚至亲自下场的马斯克也通过开源 Grok 1.0 的方式给全世界打了个样。如今这场辩论，已经超越了技术层面的优劣比较，触及了 AI 未来发展的核心方向。前不久，一些观点称开源模型将会越来越落后，如今 Llama 3 的到来，也给了这种悲观的论调一记响亮的耳光。然而，尽管 Llama 3 为开源模型扳回一局，但这场关于开源与闭源的辩论还远未结束。毕竟暗中蓄势待发的 GPT-4.5/5 也许会在今年夏天，以无可匹敌的性能为这场旷日持久的争论画上一个句号。 ... PC版：手机版：

GPT-5红队测试邮件曝光，最早6月发布？数十亿美元超算26年启动

GPT-5红队测试邮件曝光，最早6月发布？数十亿美元超算26年启动此前有传闻说，GPT-5将于今年6月发布。看起来，红队测试与模型发布的时间线十分吻合。有网友直接晒出了自己收到OpenAI邮件邀请的截图。据悉，GPT-5早已为大家准备好，只是发布风险太大了，所以还得往后延。三个月就能用了？不过还有人表示，先别急，这些人只是收到了红队邀请测试而已，并没有提及具体模型。有可能是他们填了如下的申请信息之后，才收到了邮件。安全测试对于新版GPT如此重要的原因，一方面是ChatGPT已经有了非常大的用户数，如果在安全性上出问题，OpenAI可能也会面对像谷歌一样的舆论压力。另一方面，To B业务是OpenAI的主要收入来源，定制化的ChatGPT能大大增强各个企业的业务能力和效率。有人表示，红队测试会持续90-120天。如果此次红队测试就是针对GPT-5的话，那么三个月内，我们应该就能用上它了！而在坊间，这一传闻让群众们沸腾了！他们早已按捺不住对于GPT-5的猜测和畅想。比如，GPT-5的上下文窗口会达到多少？目前，Gemini 1.5 Pro是1M，Claude 3是200K，GPT-4是128K，不知道GPT-5会突破怎样的惊人纪录。大家纷纷列出自己对于GPT-5的愿望清单比如10Mtoken的上下文窗口，闪电般的快速干扰，长期战略规划和推理，执行复杂开放式操作的能力，GUI / API导航，长期情境记忆，始终处于隐形状态的RAG，多模态等等。有人猜，或许GPT-5会和Claude 3一样，提供几种不同的型号。有人总结了目前关于GPT-5和红队的最新谣言和传闻，大致要点如下-OpenAI预计于今年夏天发布GPT-5，部分企业客户已收到增强功能的演示；-GPT-5‘实质性更好’，相比GPT-4进行了重大升级。它需要更多的训练数据；-GPT-5的潜在功能包括生成更逼真的文本、执行翻译和创意写作等复杂任务、处理视频输入以及改进推理；-Sam Altman表示，GPT-5仍在训练中，没有确切的发布日期，广泛的安全测试可能还需数月。然而，他确认OpenAI今年将‘发布一个惊人的新模型’。在3月29日，获得内部信息的Runway CEO兼AI投资人Siqi Chen就称，GPT-5已经在推理方面取得了意想不到的阶跃函数增益。它甚至可以靠自己就独立地弄清楚，如何让ChatGPT不用每隔一天就登录一次。Ilya看到的东西，也许就是这个？这是不是就意味着，在OpenAI内部，已经实现了AGI？！如果是真的，这也太惊人了。‘我不相信，只有AGI才能实现这样的能力’。总之，网友们纷称，根据泄露的待办清单显示，OpenAI的下一项任务，就是发布GPT-5了！大家纷纷呼唤Altman，是时间放出GPT-5了，别太吹毛求疵了，我们要求不高。红队测试上阵，确保GPT-5安全早在23年9月，OpenAI就曾官宣招募一批红队测试人员（Red Teaming Network），邀请不同领域专家评估模型。不同领域专家组成的红队去寻找系统漏洞，成为确保下一代模型GPT-5安全的关键。那么，红队测试人员一般都需要做哪些工作？AI红队攻击的类型主要包括，提示攻击、数据中毒、后门攻击、对抗性示例、数据提取等等。‘提示攻击’是指在控制LLM的提示中注入恶意指令，从而导致大模型执行非预期的操作。比如，今年早些时候，一名大学生利用提示获取了一家大公司的机密信息，包括开发的AI项目的代码名称，以及一些本不应该暴露的元数据。而‘提示攻击’最大的挑战是，找到威胁行为者尚未发现、利用的新提示或提示集。红队需要测试的另一种主要攻击是‘数据中毒’。在数据中毒的情况下，威胁者会试图篡改LLM接受训练的数据，从而产生新的偏差、漏洞供他人攻击以及破坏数据的后门。‘数据中毒’会对LLM提供的结果产生严重影响，因为当LLM在中毒数据上接受训练时，它们会根据这些信息学习关联模式。比如，关于某个品牌、政治人物的误导性，或不准确信息，进而左右人们的决策。还有一种情况是，受到污染的数据训练后，模型提供了关于如何治疗常规疾病或病痛的不准确医疗信息，进而导致更严重的后果。因此，红队人员需要模拟一系列数据中毒攻击，以发现LLM训练和部署流程中的任何漏洞。除此以外，还有多元的攻击方式，邀请专家也是OpenAI确保GPT-5能够完成安全测试。GPT-5，真的不远了正如网友所言，红队测试开启，意味着GPT-5真的不远了。前段时间，Altman在博客采访中曾提到，‘我们今年会发布一款令人惊艳的新模型，但不知道会叫什么名字’。尽管如此，全网都一致地将OpenAI发布的下一代模型称为GPT-5，并有传言称代号为Arrakis的项目，就是GPT-5的原型。根据FeltSteam的预测，这个Arrakis的多模态模型，性能远超GPT-4，非常接近AGI。另外，模型参数据称有125万亿，大约是GPT-4的100倍，并在2022年10月完成训练。网友还总结了以往GPT系列模型发布时间表：GPT-1在2018年6月诞生，GPT-2在2019年2月，GPT-3在2020年6月，GPT-3.5在2022年12月，GPT-4仅在三个月后于2023年3月发布。关于GPT-5的发布时间，可能在今年夏天就问世。最近，网上流传的一张图上，显示了Y Combinator推出了GPT-5早期准入候补名单。网友发起疑问，我们都清楚奥特曼和YC的关系不同寻常。这是否意味着他们可以在模型或信息公开之前获得访问权限？而上月也有爆料称，已有用户对GPT-5上手体验过了，性能惊人。外媒透露，一些企业用户已经体验到了最新版的ChatGPT。‘它真的很棒，有了质的飞跃，’一位最近见识到GPT-5效果的CEO表示。OpenAI展示了，新模型是如何根据这位CEO公司的特殊需求和数据进行工作的。他还提到，OpenAI还暗示模型还有其他一些未公开的功能，包括调用OpenAI正在开发的AI智能体来自主完成任务的能力。GPT-5，一定是正确路线吗？不过，在万众瞩目期待GPT-5面世的呼声中，也有一些不一样的声音。比如有人觉得，GPT-5无法驾驶你的汽车，GPT-5无法解决核聚变问题，GPT-5无法治愈癌症……另外，我们对模型的追求，非得是更智能吗？更便宜、更快、更不费水电的模型，可能比单独的GPT-5更有革命性意义。有人同意这个观点，表示现在实在有太多人（尤其是开发者）过于痴迷GPT-5了。其实完全没必要这么狂热，使用当前的模型，就可以已经完成和构建太多东西。只需正确选择利基市场，构建满足该利基市场需求的AI产品，让用户可以直观地访问AI，专注于更好的UI/UX即可。公式很简单。我们真的有必要一味追求力大砖飞吗？很多人表示赞同，表示甚至用GPT-3.5就可以造出非常有价值的东西。问题不在于模型多先进，而在于怎样满足利基市场的需求。智算中心，先从小的建起而3月底曝出的用于训练GPT-6的千亿美元‘星际之门’超算，今天又被外媒挖出了更多新的内容。上周五，外媒The Information曝出了一个惊人消息：OpenAI和微软正在制定一项雄心勃勃的数据中心项目，预计耗资1000亿美元。此消息一曝出，AI和云计算行业人士的提问，像雪片一样袭来数据中心具体位于美国的哪个地区？为此，The Information又挖出了更多料，具体细节如下。首先，之前的消息说是星际之门最早在2028年启动，而最新消息显示，最快在2026年，就会在威斯康星州启动一个功率较小的数据中心。它的价值当然不到千亿美元，但估计仍会耗资数十亿。其他细节如下用英伟达芯片，但不用英伟达网线首先，这次数据中心的多数服务器机架，当然主要还是用的英伟达芯片。不过有趣的是，将各个AI芯片服务器连接起来的网线，则并不会采用英伟达的产品。据悉，OpenAI已经告知微软，自己不想再使用英伟达的InfiniBand网络设备。相反，它可能会使用基于以太网的电缆... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

有人发现用2019年 GPT-2 的 1.5B 模型为基础，使用大规模指令集进行微调之后，模型指标竟然超越了2023年的羊驼 7

全球最强大模型一夜易主 GPT-4被全面超越

32K上下文，Mistral 7B v0.2基模型突然开源了

最强开源大模型深夜炸场：Llama 3 王者归来 表现直逼 GPT-4

GPT-5红队测试邮件曝光，最早6月发布？数十亿美元超算26年启动

最强开源大模型深夜炸场：Llama 3 王者归来表现直逼 GPT-4