双倍CUDA单元和良心价格！新一代Ampere GPU架构和首发显卡简析

双倍CUDA单元和良心价格！新一代AmpereGPU架构和首发显卡简析https://www.expreview.com/75928.html这个CUDACores翻倍，有一点作弊的意思吧……就是Turing的CUDACores是1个FP32一个INT，现在把FP32翻倍了，按照原来的算法3090应该是5248CUDACores每个CUDACore有两个FP32一个INT。老黄觉得这不好听我们按照FP32算吧所以CUDACores就翻倍了但是和Turing的CUDACores相比就是两个CUDACores共享一个INT。这也不能算老黄鸡贼，毕竟这种多少个Cores都是数字游戏，他要乐意按照SM单元去计算也是可以的。或者这么说，AMD的StreamingProcessor的数量和老黄的计算方式不同，不能直接看这个数量去评价性能。毕竟最终还是以性能来看，Ampere性能牛逼，AMD打不过，那老黄说什么都是对的……老黄的PPT总体来说水分不是很大，现在看3070媲美2080Ti目测也没什么问题（没到爆8GBVRAM之前），那总体来看只要还是2k分辨率的水平3070媲美2080Ti没什么问题（并且新卡还有进一步的优化空间）。至于你说4kgaming?本来2080Ti4kgaming也是假的好吧…………………………

在Telegram中查看

相关推荐

传RTX 4060/4060 Ti GPU频率超2.5GHz 较RTX 3080 10更快

传RTX4060/4060TiGPU频率超2.5GHz较RTX308010更快@QbitLeaks刚刚分享了英伟达即将推出的GeForceRTX4060/4060Ti主流显卡的基准测试成绩——据传两款AdaLovelaceGPU具有超过2.5GHz的主频，较高的SKU甚至比RTX308010GB还要快。定价方面，RTX4060/4060Ti将瞄准300~500美元的档位。不过鉴于FCL（@QbitLeaks）的爆料历史相对有限，目前这组数据的可信度仍然存疑。（viaWCCFTech）首先聊聊RTX4060的规格，据说其采用了AD106-300芯片，拥有31组SM单元/3968个FP32内核。而完整规格的AD106GPU拥有36组SM单元/4608个FP32内核，AD106-300缩水了14%。预计RTX4060搭载了8GB@128-bit的17GbpsGDDR6显存，带宽272GB/s。GPU主频（平均时钟速率）或高达2700MHz，TBP功耗在230~240W之间。其次说说RTX4060Ti的规格，据说其采用了AD104-180-A1芯片，拥有48组SM单元/6144个FP32内核。而完整规格的AD104GPU拥有60组SM单元/7680个FP32内核，AD104-180-A1缩水了20%。预计RTX4060Ti搭载10GB@160-bit的17.5GbpsGDDR6显存，带宽350GB/s。GPU主频（平均失踪速率）约为2600MHz，TBP功耗在270~280W左右。传闻RTX40系列显卡产品线仅从规格来看，虽然核心数量分别增加了11%和26%，但RTX4060/4060Ti的显存容量变化要更引人关注。其中RTX4060显存容量从RTX3060的12GB缩减到了8GB，但RTX4060Ti从RTX3060Ti的8GB增加到了10GB。同时RTX4060Ti的显存位宽从256-bit砍到了160-bit，因而带宽也受到了影响。功耗方面，据传RTX4060Ti增加了70-80W、而RTX4060也上涨了40W。若真如此，RTX4060的TBP功耗甚至比RTX3070（220W）更高——此前@Kopite7kimi也提到过此事。综上所述，WCCFTech给出了这样一份FP32Compute性能梯图（越高越好），此外爆料人分享了3DMark《TimeSpyExtreme》的性能数据。推测RTX4060/4060Ti分别较上一代RTX3060/3060Ti快45-50%，但这只能表示综合性能、实际游戏表现可能会略低一些（提升25-40%）。作为参考，RTX3060/3060Ti较RTX2060系列的平均性能提升在15-25%左右。至于真相究竟如何，还请耐心等待英伟达下月的GTC2022大会上揭晓。PC版：https://www.cnbeta.com/articles/soft/1309341.htm手机版：https://m.cnbeta.com/view/1309341.htm

AMD ROCm 6.0发布：新增支持两大GPU显卡、一大AI框架

AMDROCm6.0发布：新增支持两大GPU显卡、一大AI框架如今的ROCm6.0又迎来了RDNA3显卡家族的两名新成员：RX7900GRE、RadeonPROW7800。工程师可利用它们进行AI、ML开发，这就进一步拓展了平台范围，降低了开发门槛，无论是性能还是价位都给开发者提供了更多选择。此外，ROCm6.0还支持了ONNXRuntime，这是一种用于在不同ML框架之间转换AI模型的中间ML框架。因此，开发者可以在本地AMD硬件上以更广泛的源数据执行推理，还可以通过AMD自有的图形推理引擎MIGraphX来处理INT8整数数据——此前已支持FP16、FP32浮点数据格式。当然，PyTorch框架是继续支持的，可操作FP16/FP32混合精度数据。随着ROCm6.0的正式发布，这也预示着AMD正在加快、加深对ROCm开发平台的建设速度，支持的显卡硬件、框架模型越来越多，让开发者可以更自由地从事AI、ML研究，也在NVIDIACUDA、IntelopenAPI之外提供了同样强有力的平台选择。...PC版：https://www.cnbeta.com.tw/articles/soft/1419735.htm手机版：https://m.cnbeta.com.tw/view/1419735.htm

「摩尔线程」推出第二代全功能 GPU“春晓”，首款消费级国潮芯片显卡等7大新品亮相

「摩尔线程」推出第二代全功能GPU“春晓”，首款消费级国潮芯片显卡等7大新品亮相220亿个晶体管，内置4096个MUSA核心、128张量计算核心，核心频率达1.8GHz，FP32计算能力为14.4TFLOPS，配备16GBGDDR6显存，448GB/s显存带宽，支持PCIeGen5。基于“春晓”的首款游戏显卡MTTS80，已完成首批生产与备货，将在11月11日于京东电商平台开售。目前，官方暂未透露这款显卡的价格。https://36kr.com/p/1985634121254151========isthisgenshinable?

NVIDIA发布安培架构入门专业显卡RTX A1000/A400：单插槽功耗仅50W

NVIDIA发布安培架构入门专业显卡RTXA1000/A400：单插槽功耗仅50WRTXA1000/A400都采用了单插槽、半高式设计，非常迷你，因为功耗只有区区50W，单风扇搞定，也不需要外接辅助供电。它们俩都集成了第二代RT光追核心、第三代Tensor张量核心、第七代NVENC编码器和第五代NVDEC解码器(支持AV1)。RTXA1000的核心应该和RTXA2000一样都是GA106，只有2304个CUDA核心、72个张量核心、18个光追核心，核心加速频率1463MHz，FP32浮点性能6.74TFlops，这甚至还不如RTX3050。显存还是128-bit位宽的8GBGDDR6，带宽192GB/s。RTXA400的核心应该是GA107，仅有768个CUDA核心、24个张量核心、6个光追核心，加速频率1758MHz，浮点性能207TFlops，显存也只有64-bit4GBGDDR6，带宽为96GB/s。RTXA1000现已出货，RTX400下月跟进。...PC版：https://www.cnbeta.com.tw/articles/soft/1427630.htm手机版：https://m.cnbeta.com.tw/view/1427630.htm

Blackwell GPU架构将于2025年推出 512位GDDR7显存王者归来

BlackwellGPU架构将于2025年推出512位GDDR7显存王者归来理论上，每组TPC应该还是2组SM，每组SM应该还是128个CUDA核心，那就是总计20480个CUDA核心，比现在的GH100核心增加11％。同时，HBM显存的位宽扩大到8192-bit，相比GH100增加足足1/3，意味着显存容量可达128GB，而且势必会升级到HBM3。当然按照惯例，B100计算卡不会是满血的，会屏蔽部分单元和显存位宽/容量。我们更感兴趣的还是游戏卡核心GB202，曝料称它和现在的AD102一样还是12组GPC，不过每组中的TPC从6个增加到8个。这就意味着，GB202会有总计192组SM、24567个CUDA核心，增加了足足1/3！更惊人的是，kopite7kimi确认了此前的猜测，GB202核心真的会支持512-bit位宽，同样比现在增加1/3，这就意味着显存容量可达32GB，而且将会是新一代GDDR7。GB202架构图猜想上一次原生512-bit显存位宽，还是AMDR200/R300时代的HawaiiGPU核心。还是惯例，RTX5090不会是满血的，也不一定会有RTX5090Ti。根据此前说法，GB202核心还会有翻倍的128MB缓存，核心频率可达约2.9GHz，实际能超过3GHz。它下边还会有GB203、GB205、GB206、GB207等四个不同级别的核心。...PC版：https://www.cnbeta.com.tw/articles/soft/1387055.htm手机版：https://m.cnbeta.com.tw/view/1387055.htm

国内第一算力通用GPU芯片集成770亿晶体管一次点亮成功

国内第一算力通用GPU芯片集成770亿晶体管一次点亮成功8月9日下午，国内科技创新企业壁仞科技(Birentech)正式发布BR100系列通用计算GPU，号称算力国内第一，多向指标媲美设置超越国际旗舰产品。根据介绍，壁仞科技BR100芯片采用台积电7nm工艺制造、2.5DCoWoS封装技术、Chiplet小芯片技术，集成了多达770亿晶体管，规模上堪比人类大脑神经细胞，已经非常接近800亿个晶体管的NVIDIAGH100计算核心。性能方面，INT8整数计算2048Tops(每秒2048万亿次)、BF16浮点计算1024TFlops(每秒1024万亿次)、TF32+浮点计算512TFlops(每秒512万亿次)、FP32双精度浮点256TFlops(每秒256万亿次)。其他方面，它还集成了超过300MB片上缓存、64GBHBM2E片上内存，外部IO带宽达2.3TB/s，支持64路编码、512路解码，还支持PCIe5.0、CXL互连协议，一次全部给到位。更难得的是，壁仞科技创始人、董事长、CEO张文在发布会上披露，BR100系列芯片一次就点亮成功了！我们知道，芯片设计是一个漫长复杂的过程，最为关键的就是流片，一旦失败就要推倒重来，即便是Intel、NVIDIA、AMD这些顶级巨头也不能保证一次完成，壁仞科技如此庞大规模、顶级算力的设计一次就搞定，属实难得。PC版：https://www.cnbeta.com/articles/soft/1302535.htm手机版：https://m.cnbeta.com/view/1302535.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人