2017-2023 年的 AI 模型的训练成本

2017-2023年的AI模型的训练成本$930-Transformer(谷歌)$3288-BERT-Large(谷歌)$16万-RoBERTaLarge(Meta)$132万-LaMDA(谷歌)$393万-Llama270B(Meta)$432万-GPT-3175B(OpenAI)$640万-Megatron-TuringNLG530B(微软/英伟达)$1238万-PaLM540B(谷歌)$7835万-GPT-41800B(OpenAI)$1.914亿-GeminiUltra(谷歌)关注频道@TestFlightCN

相关推荐

封面图片

各大AI模型训练成本大比拼:谷歌Gemini Ultra高达1.9亿美元

各大AI模型训练成本大比拼:谷歌GeminiUltra高达1.9亿美元训练成本是如何确定的?斯坦福大学与研究公司EpochAI合作,根据云计算租金估算了AI模型的训练成本。双方所分析的关键因素包括模型的训练时长、硬件的利用率和训练硬件的价值。尽管许多人猜测,训练AI模型的成本变得越来越高,但缺乏全面的数据来支持这些说法。而斯坦福大学发布的《2024年AI指数报告》正是支持这些说法的罕见来源之一。不断膨胀的训练成本下表展示了自2017年以来,经通胀调整后的主要AI模型的培训成本:去年,OpenAI的GPT-4培训成本估计为7840万美元,远高于谷歌PaLM(540B)的训练成本。谷歌PaLM较GPT-4仅早一年推出,但训练成本为1240万美元。相比之下,2017年开发的早期AI模型Transformer的训练成本为930美元。该模型在塑造当前所使用的许多大型语言模型的体系结构方面起着基础性作用。谷歌的AI模型GeminiUltra的训练成更高,达到了惊人的1.91亿美元。截至2024年初,该模型在几个指标上都超过了GPT-4,最引人注目的是在“大规模多任务语言理解”(MMLU)基准测试中胜出。这一基准是衡量大型语言模型能力的重要标尺。例如,它以评估57个学科领域的知识和解决问题的熟练程度而闻名。训练未来的AI模型鉴于这些挑战,AI公司正在寻找新的解决方案来训练语言模型,以应对不断上涨的成本。其中的方法有多种,比如创建用于执行特定任务的较小模型,而其他一些公司正在试验创建自家的合成数据来“投喂”AI系统。但到目前为止,这方面还没有取得明确的突破。例如,使用合成数据的AI模型有时会“胡言乱语”,引发所谓的“模型崩溃”。...PC版:https://www.cnbeta.com.tw/articles/soft/1433692.htm手机版:https://m.cnbeta.com.tw/view/1433692.htm

封面图片

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称:“PaLM2在逻辑和推理方面进行了广泛的训练,具有极强的逻辑和推理能力。同时,它还接受了多语言文本训练,支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫(SlavPetrov)称,最新的PaLM2在一系列基于文本的任务上表现更好,包括推理、编码和翻译等。他说:“与PaLM1相比,PaLM2有了显著提升。”对于PaLM2,谷歌工程师在一份研究论文中称,该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样,PaLM2与其说是一款单一产品,不如说是一系列产品。它拥有不同的版本,可部署在消费者和企业环境中。确切而言,PaLM2分为四种规格,从小到大依次为Gecko、Otter、Bison和Unicorn,依据特定领域的数据进行了微调,以执行企业客户的特定任务。其中,体积最小的Gecko可以在手机上运行,每秒可处理20个Token,大约相当于16或17个单词。谷歌还称,PaLM2已被用于支持自家的25项功能和产品,其中包括AI聊天机器人Bard,以及谷歌文档、幻灯片和工作表等。...PC版:https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版:https://m.cnbeta.com.tw/view/1359045.htm

封面图片

国产AI大模型ChatGLM开测:为中文优化、支持CPU训练

国产AI大模型ChatGLM开测:为中文优化、支持国产CPU训练据介绍,对话机器人ChatGLM(alpha内测版:QAGLM),这是一个初具问答和对话功能的千亿中英语言模型,并针对中文进行了优化,现已开启邀请制内测,后续还会逐步扩大内测范围。与此同时,继开源GLM-130B千亿基座模型之后,我们正式开源最新的中英双语对话GLM模型:ChatGLM-6B,结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B虽然规模不及千亿模型,但大大降低了用户部署的门槛,并且已经能生成相当符合人类偏好的回答。ChatGLM参考了ChatGPT的设计思路,在千亿基座模型GLM-130B1 中注入了代码预训练,通过有监督微调(SupervisedFine-Tuning)等技术实现人类意图对齐。ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B。它是不同于BERT、GPT-3以及T5的架构,是一个包含多目标函数的自回归预训练模型。2022年8月,我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型GLM-130B1,该模型有一些独特的优势:双语: 同时支持中文和英文。高精度(英文): 在公开的英文自然语言榜单LAMBADA、MMLU和Big-bench-lite上优于GPT-3175B(API:davinci,基座模型)、OPT-175B和BLOOM-176B。高精度(中文): 在7个零样本CLUE数据集和5个零样本FewCLUE数据集上明显优于ERNIETITAN3.0260B和YUAN1.0-245B。快速推理: 首个实现INT4量化的千亿模型,支持用一台4卡3090或8卡2080Ti服务器进行快速且基本无损推理。可复现性: 所有结果(超过30个任务)均可通过我们的开源代码和模型参数复现。跨平台: 支持在国产的海光DCU、华为升腾910和申威处理器及美国的英伟达芯片上进行训练与推理。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测2,GLM-130B是亚洲唯一入选的大模型。在与OpenAI、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示GLM-130B在准确性和恶意性指标上与GPT-3175B(davinci)接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(作为公平对比,只对比无指令提示微调模型)中表现不错(下图)。图1.斯坦福大学基础模型中心对全球30个大模型的评测结果(2022年11月)...PC版:https://www.cnbeta.com.tw/articles/soft/1349501.htm手机版:https://m.cnbeta.com.tw/view/1349501.htm

封面图片

Meta发布全新大型语言模型LLaMA,加入硅谷AI竞赛

Meta发布全新大型语言模型LLaMA,加入硅谷AI竞赛当地时间2月24日,Meta公司发布一款新的人工智能大型语言模型LLaMA,加入微软、谷歌等硅谷公司的竞赛。Meta首席执行官扎克伯格在Instagram表示,LLaMA模型旨在帮助研究人员推进工作,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面“有很大的前景”。Meta表示,在大多数基准测试中,参数仅为十分之一的LLaMA-13B的性能优于OpenAI推出的GPT3(175B),也即支持ChatGPT的GPT3.5的前身。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

人工智能军备竞赛白热化:谷歌最新AI大语言模型数据量扩充5倍

人工智能军备竞赛白热化:谷歌最新AI大语言模型数据量扩充5倍令牌指的是单词串,这是训练大语言模型的重要基础,因为这可以教给模型如何预测字符串中可能出现的下一个单词。之前版本的PaLM发布于2022年,当时使用的令牌为7800亿个。虽然谷歌很希望展示其人工智能技术的实力,以及嵌入搜索、电子邮件、字处理和电子表格后的效果,但该公司却不愿发布其训练数据的规模和其他细节。微软支持的OpenAI也对其最新的GPT-4大语言模型的细节信息保密。这些公司表示,之所以不披露这些信息,是出于商业竞争考虑。谷歌和OpenAI都在努力吸引想要用聊天机器人代替传统搜索引擎,从而直接获取答案的用户。但随着人工智能军备竞赛日趋白热化,相关研究人员也呼吁企业加大透明度。自从发布PaLM2之后,谷歌一直表示新的模型比之前的大语言模型更小,这就意味着该公司的技术效率得以提升,但却可以完成更加复杂的任务。内部文件显示,PaLM2基于3400亿个参数训练——这项指标可以说明该模型的复杂程度。最初的PaLM则基于5400亿个参数训练。目前,谷歌尚未对此置评。谷歌在一篇关于PaLM2的博文中表示,该模型使用了一种名为“计算机优化扩张”的新技术。这就让大语言“更高效、整体性能更好,包括加快推理速度、减少参数调用和降低服务成本。”在宣布PaLM2时,谷歌证实了此前的媒体报道,计该模型针对100种语言进行训练,可以执行更广泛的任务。它已经被用于25项功能和产品,包括该公司的实验性聊天机器人Bard。按照从小到大的规模划分,该模型共有4种,分别是壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn)。根据公开披露的信息,PaLM2比现有的任何模型都更加强大。Facebook在2月份宣布的的LLaMA大语言模型采用1.4万亿个令牌。OpenAI上一次披露GPT-3的训练规模时表示,它当时基于3000亿个令牌。OpenAI今年3月发布GPT-4时表示,它在许多专业测试中展示出“与人类媲美的表现”。LAMDA是谷歌两年前推出的一个对话型大语言模型,在今年2月还与Bard一同对外宣传。该模型基于1.5万亿个令牌训练。随着新的人工智能应用快速进入主流,围绕底层技术的争议也越来越激烈。谷歌高级研究科学家艾尔·迈赫迪·艾尔·麦哈麦迪(ElMahdiElMhamdi)于今年2月辞职,主要原因就是人工智能技术缺乏透明度。本周二,OpenAICEO山姆·阿尔特曼(SamAltman)出席美国国会针对隐私和技术举行的听证会,他也认为需要设立一套新的制度来应对人工智能的潜在问题。“对于一种全新的技术,我们需要一套全新的框架。”阿尔特曼说,“当然,像我们这样的公司应当为我们推出的工具承担许多责任。”...PC版:https://www.cnbeta.com.tw/articles/soft/1360049.htm手机版:https://m.cnbeta.com.tw/view/1360049.htm

封面图片

字节跳动使用 GPT 训练自己的 AI 模型而封锁其账号2023-

SFWOpenAI-12-1622:11:44by超时空碎片TikTok母公司字节跳动一直秘密使用OpenAI的技术开发其代号为ProjectSeed的大模型。这种做法在AI领域通常被认为是令人尴尬的,也违反了OpenAI的服务条款——禁止将其模型输出用于开发竞争的AI模型。字节跳动的内部文件证实,在大模型开发的几乎每一个阶段,该公司都依赖于OpenAIAPI。字节跳动员工在内部通信平台飞书中甚至讨论了“数据脱敏”。字节跳动员工经常达到OpenAIAPI的限额。在报道发表之后,OpenAI发言人表示已经封锁了字节跳动的账号。https://slashdot.org/story/23/12/15/2346251/openai-suspends-bytedances-account-after-it-used-gpt-to-train-its-own-ai-model#人工智能from

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人