前两天AK转发的一条关于在大规模GPU集群上训练LLM的推文,原文比AK的评述要精彩得多,建议大家一读。可能是我过于cynica
前两天AK转发的一条关于在大规模GPU集群上训练LLM的推文,原文比AK的评述要精彩得多,建议大家一读。可能是我过于cynical了,原文读起来让我觉得作者(Yi Tay,前Google Brain高级研究员)优越感有点太强,反复讲自己在Google时infra如何稳定,codebase如何优雅,称一切Google体系之外的软硬件生态是“wilderness”,吐槽有点太密了.... 但瑕不掩瑜,这篇文章还是特别真诚地分享了初创公司在租用的GPU集群上训练LLM时(想必是大多数公司的情况)遇到的一些问题,我简单总结了一下: 1、各GPU云算力提供商所提供的算力,质量差异之巨大,已经可以称为“硬件盲盒”了(hardware lottery),你完全无法预测自己租用的GPU集群的算力质量和运行情况; 2、作者亲身经历过各种质量的集群,从虽然有点毛病但总体上修修补补能持续跑,到每隔几个小时就宕机完全不能用的都有; 3、主要的问题不在单卡,而是不同云算力提供商组织单卡的方式(cabling)、I/O、文件系统等方面,有些集训甚至需要你自己重新写一个软件层才能跑起来; 4、云算力服务商提供服务质量不一,交付周期无法控制,客服水平和态度也是有好有坏,有的甚至会误删你的checkpoints....; 5、不同的集群Model Flop Utilisation (MFU) 表现不一致,且差异不可忽略,导致集群的理论算力利用不充分。 挺接地气的一篇文章,相信不少创业的小伙伴也或多或少遇到过相同的问题。希望能看到国内团队的类似经验分享,大家看了能少走弯路。此外,我很好奇的是,如果美国startups所面对的商用cluster市场都是如此的话,我们国内的各种“超算中心”、“大规模人工智能计算集群”的实际服务质量和MFU又是如何呢?国资委一纸令下,国央企已经开始动起来要大干快上建设算力了,这些算力,未来又将会是何种结果呢? 原文链接: Image generated by Dall-E
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人