这是一本即将出版的高性能计算书籍,名为“适应现代硬件的算法”,作者是Sergey Slotin。

这是一本即将出版的高性能计算书籍,名为“适应现代硬件的算法”,作者是Sergey Slotin。 其目标读者包括从性能工程师和实用算法研究员到刚刚完成高级算法课程并希望学习更多实用的方法来加速程序的本科计算机科学学生,不仅仅是从O(nlogn)提升到O(nloglogn)。 ||| #电子书

相关推荐

封面图片

高性能计算 = 高性能的算法 + 高性能的软件系统 + 高性能的硬件。文章介绍了高性能计算从Easy到 Lunatic不同难度的

高性能计算 = 高性能的算法 + 高性能的软件系统 + 高性能的硬件。文章介绍了高性能计算从Easy到 Lunatic不同难度的学习路线,和相关的程序性能分析、OpenMP、MPI、高性能集群、计算机体系结构等的基本知识点(没有展开) ​​​

封面图片

技术博客《》内容很丰富,技术方面以C、算法、高性能计算为主。有很多博主阅读过的英文文章的要点总结。

技术博客《》 内容很丰富,技术方面以C、算法、高性能计算为主。有很多博主阅读过的英文文章的要点总结。 比如最近一篇介绍了CppCon 2016上的一个讨论,为什么C++这个语言不能被C社区所接受。一个重要的原因是“如果你尝试去说服别人的时候,不要去争论,不然你就输了。”

封面图片

清华大学集成电路学院教授魏少军:依靠工艺技术进步已几乎无法实现更高性能的计算

清华大学集成电路学院教授魏少军:依靠工艺技术进步已几乎无法实现更高性能的计算 今日中国半导体行业协会IC设计分会理事长、清华大学集成电路学院教授魏少军在以“创芯未来 共筑生态”为主题的2023中国临港国际半导体大会上对记者表示,当前依靠工艺技术进步几乎无法实现更高性能的计算,特别是从现有计算芯片的主流路线推演,已难以满足Z级超算的性能、功耗和成本需求,需要研发新的计算芯片架构来应对智能化、大算力的新挑战。 来源:

封面图片

是一款专为高性能系统制造的暴力破解软件。针对现代多核处理器和高速固态硬盘优化,速比常识件提升5倍以上,完全利用计算机硬件

是一款专为高性能系统制造的暴力破解软件。针对现代多核处理器和高速固态硬盘优化,速比常识破解软件件提升5倍以上,完全利用计算机硬件性能。| #工具 主要特点: 批量解压:自动扫描解压目录下所有压解文件,即使文件后显名不正确也能正确认识别。 支持多格式:支持常见压缩文件格式7z、zip、rar、tar、gz、xz、bz2,并能正确处理分卷压缩包。 支持多进程:根据处理器线路进程数,自定义解压进进程数,将解压速度翻倍。 支持密码列表:可以设置常用密码列表,自动配对加压缩压缩包。 附加功能:删除目录日志、删除空间目录、删除垃圾文件等常用功能。

封面图片

:从入门到精通,利用NVIDIA GPU进行数学和机器学习的加速计算,适用于希望扩展算法至GPU的研究人员和应用专家

:从入门到精通,利用NVIDIA GPU进行数学和机器学习的加速计算,适用于希望扩展算法至GPU的研究人员和应用专家 CUDA(统一计算设备架构)是 NVIDIA 开发的并行计算平台和编程模型。它允许软件开发人员利用 NVIDIA GPU(图形处理单元)巨大的并行处理能力来执行通用计算任务,而不仅仅是其传统的图形渲染角色。 GPU 设计有数千个更小、更高效的核心,经过优化可同时处理多个任务。这使得它们非常适合可分解为许多独立操作的任务,例如科学模拟、机器学习、视频处理等。与传统的仅使用 CPU 的代码相比,CUDA 可显著提高合适应用程序的速度。 GPU 可以并行处理大量数据,从而加速在 CPU 上需要更长时间的计算。对于某些类型的工作负载,GPU 比 CPU 更节能,可提供更高的每瓦性能。

封面图片

马斯克剧透新FSD计算硬件:直接冠名AI5 4nm工艺算力10倍提升

马斯克剧透新FSD计算硬件:直接冠名AI5 4nm工艺算力10倍提升 为啥不叫HW5.0?有啥提升HW其实就是Hardware的缩写,字面上自动驾驶系统硬件的意思。这应该是早期马斯克直接把内部工程项目的代号拿来当产品名称了。创业阶段初出茅庐,这样搞挺好,凸显特斯拉技术宅、工程师基因。但现在特斯拉家大业大,全球智能车行业都在模仿和试图超越,再这么随意,好像也不太合适。于是马斯克宣布,我们改名啦,新一代自动驾驶硬件平台,名字就叫AI5。这属于是自动驾驶第一性原理命名法了。老马透露的相关信息还有这些:首先是算力比现款HW4.0提升10倍。其次是功耗整体提高4-5倍。2025年下半年推出。有这么几个点值得留意。算力方面,马斯克特别提到整个平台的算力大概是HW4.0的10倍。其实特斯拉从未明确公布过HW4.0的具体数据,只是说是HW3.0的5倍(国内三方资料中的750TOPS数据无官方证实),所以根据已知信息和国外发烧友的实机拆解测试,大概可以推测出HW4.0的算力在300TOPS-500TOPS之间。也就是单颗FSD芯片200多TOPS算力。这样计算,AI5整个平台算力可能达到3000-5000TOPS。这个数据是十分恐怖的。目前国内的TOP玩家,比如华为、小鹏等等,支撑无图、轻图城市NOA功能的算力平台,不过就在400-500TOPS左右。“芯皇”英伟达Thor,顶配才2000多TOPS,而且业内已经有很多意见认为量产车并不需要如此过剩的算力。马斯克到底是在“放卫星”提振外界对特斯拉的信心,还是真的对自动驾驶技术范式做出了革命性变革,是个很大的悬念和看点。第二个值得留意的是能耗方面。马斯克提到五代硬件平台,整体能耗比HW4.0提升4-5倍,相比于10倍的性能提升,其实证明特斯拉自动驾驶软硬结合能力更进一步,能耗控制更合理了。还要补充一点,车载计算芯片和手机计算芯片的不同之一,就是可以无后顾之忧的打“富裕仗”,不必过于把能耗、尺寸作为衡量优劣的指标。车载计算平台的散热条件,天然也比PC、手机优良得多。毕竟电动车的电池容量远大于手机,而且就算芯片能耗再高,相比于电机、空调等等,也只能算零头。还有一点容易被忽略,马斯克说AI5是“特斯拉最新一代计算平台”,但是严谨地说,特斯拉的业务就仅仅只有汽车吗?所以这也是大部分网友推测的依据:AI5很可能并不是专门为FSD准备,如此高的算力,匹配的可能是今年8月即将发布的特斯拉Robotaxi、人形机器人Optimus,以及未来支持L4、L5的特斯拉车型。也许那个时候的特斯拉产品,真的会取消驾驶舱。不过也有用户提了一个很尖锐的问题:之前HW3.0面世时,马斯克就拍胸脯保证可以实现无监督的FSD功能,但显然是鸽了。直到今天的HW4.0仍然不行。AI5就一定可以吗?AI5会带来什么样的改变?现在已知的信息并不多,只有一点是较为确定的,AI5由三星代工,4nm工艺。最早特斯拉曾表示过100%给台积电代工,不过后来马斯克和三星高层见了一面后,又改了最初的决定。据说是三星给马斯克开了一个“没法拒绝”的优惠价格,而且先进制程的良品率提升到70%多,和台积电相差不多了。所以可以基本肯定,AI5仍然会采用基于Exynos-IP的内核。Exynos-IP是三星基于ARM构架设计的自有IP,谷歌的手机也用过。2019年三星因为和高通合作,就停止了相关工作,不过Exynos-IP设计非常超前,基本上近似于目前ARM Cortex X系列的旗舰X3的设计,所以2020年之后才开始设计的HW4.0,经国外特斯拉爆料大神Greentheonly拆解发现,仍然采用了Exynos-IP。AI5很可能延续这个路线。当然,今时不同往日,自动驾驶算法的技术范式已经发生了深刻变革,从最初的CNN为为主的模块化网络结构,转变为以Transformer为主的端到端一体化网络。外界通常更加关心自动驾驶芯片的NPU算力,这本身没错,大模型时代,当然需要更强的AI计算能力。但对于自动驾驶任务来说,光NPU变强还不够,AI处理器的速度再快,算力再高,如果90%的时间都是在等内存搬运数据,那也是白搭。CNN时代外置CPU足以配合好AI处理器,但到了Transformer,CPU反而成了瓶颈,内置成了最佳选择。实际上,HW4.0就是添加了一个CPU以应对Transformer,刚好和特斯拉超算芯片Dojo的D1架构原理相同。这也就解释了马斯克在剧透AI5的同时,还特意强调了HW4.0不是直接退役,而是拿去构建训练集群(和英伟达A100同时服役)。所以特斯拉对于下一代计算平台AI5的安排和带来的影响,大概也能推测一二了。AI5的超大算力,极大可能不是单一芯片或双芯片实现,而是多个下一代4nm FSD芯片组合的结果。如果真是单颗/双颗芯片数千TOPS算力,成本就会到几乎无法量产,不是汽车工业也不是科技行业的玩法。这也就说明,AI5很有可能是一个平台方案,根据任务、场景、产品成本要求不同,“丰俭由马斯克”。最复杂的人形机器人,可能会用到数千TOPS算力,Robotaxi可能就会低一点。相应的,特斯拉量产车可能会更低。至于完全无监督的FSD在车端到底需要多大算力支持,可能马斯克自己现在也不清楚,仍在摸索中。“端到端”最合理最高效的模式,到底是全部AI模型化,做成一个大黑盒,还是有条件的、逐步一体化,业内也没有定论。AI5最终体现在特斯拉量产车的算力有多大,不好判断,但肯定大于现在的四五百TOPS。所以AI5带来的冲击和影响,最直接的是开启智能汽车、自动驾驶的算力军备竞赛。全行业玩家在这样的竞赛过程中,逐渐就会明确端到端自动驾驶的实现基本前提和门槛。L4也是同样,AI5在特斯拉的Robotaxi上的探索和试错,作用也相当于量产车,那就是给Robotaxi的落地打造出一个样板:多大算力、什么样的方案配置、多少成本。更重要的,是特斯拉身体力行为所有“AGI”玩家打样:需要什么样的技术体系,底层通用平台如何打造,云端终端的架构分别怎么选择… ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人