英伟达正在“垄断”AI产业,国内厂商准备好了吗?
英伟达正在“垄断”AI产业,国内厂商准备好了吗?与其一同前往的还有特斯拉和OpenAI的创始人,埃隆马斯克。这次OpenAI之行,老黄不为别的,就是为了把这台刚出炉的超算送给OpenAI,给他们的人工智能项目研究加一波速。这台DGX-1价值超过百万,是英伟达超过3000名员工,花费三年时间打造。这台DGX-1,能把OpenAI一年的训练时间,压缩到短短一个月。而这,是他对人工智能未来的豪赌,加的一波注。七年之后,在前不久的GTC大会上,老黄穿着皮衣,拿着芯片,整个宣讲不离AI。似乎是在告诉各位,AI的时代,我英伟达,就要称王了,当年的豪赌,他赢了!这么说吧,在去年经历一波矿难之后,不少人都以为曾靠着矿潮狂赚一笔的英伟达,会在矿难之下市值暴跌,一蹶不振。但实际情况却有点微妙……英伟达的股价在跌了大半年之后,从十月份开始,一路上涨,到现在,整个英伟达市值已经涨回到了6500亿美元,是AMD的4倍,英特尔的6倍。瞧瞧,这还是当年那个求着各位买显卡的老黄嘛?而让英伟达的股价疯涨的,那便是他们从十多年前就开始押注的AI计算。给大家一个数据,从15年后,英伟达的GPU在超算中心的市场份额就一路上涨,这几年稳居90%左右。在独立GPU市场上,英伟达的市场占有率也一度超过80%。另外,包括YouTube、CatFinder、AlphaGo、GPT-3、GPT-4在内,AI历史上那些叫得出名的玩意,几乎都是在英伟达的硬件上整出来的。英伟达的硬件,仿佛就是新时代的内燃机,载着AI时代不断前进。差友们可能会有点疑问,为什么在AI爆发的时代,好像就只有老黄有好处,其它的显卡生产商们的显卡不能训练AI嘛?能训练,但只能训练一点点。为啥?这就不得不提到英伟达从2006年就开始着手开发一个东西——CUDA(统一计算设备架构)。差评君简单解释一下它是干嘛的,当你想要计算一些比较庞大的运算问题时,通过CUDA编程,你就能充分利用GPU的并行处理能力,从而大幅提升计算性能。差评君说一个听来的比喻。CPU就好比是个数学教授,GPU就是100个小学生,放一道高数题下来那100个小学生可能会懵逼;但是放100道四则口算题下来,那100个小学生同时做肯定比数学教授快多了。深度学习就是上面的例子中那100道口算题,那个让GPU处理器并行运算的“工具”就叫CUDA。一般来说,使用CUDA和不使用CUDA,两者在计算速度上往往有数倍到数十倍的差距。既然CUDA这么有用,为什么其它的GPU厂商不去搞个竞品呢?不是不去搞啊,而是他们真的没想到!在早期,GPU的作用只是为了加速图形渲染,各大厂商们认为它就是一个图形专用计算芯片,并没有想到把GPU用在其它通用计算方面。至于拿来做深度学习?以那个年代的AI能力,一是没有太大的必要,二是也没有人觉得它有用。英伟达深度学习团队的布莱恩在聊到CUDA时这么说道:“在CUDA推出十年以来,整个华尔街一直在问英伟达,为什么你们做了这项投入,却没有人使用它?他们对我们的市值估值为0美元。”不过说没人用也是过于严重了。其实早在2012年,多伦多大学的AlexKrizhevsky就在ImageNet计算机视觉挑战赛中,利用GPU驱动的深度学习击败了其它对手,当时他们使用的显卡是GTX580。在这之后又经过了4年,那些搞深度学习的人才突然意识到,GPU的这种设计结构方式,在训练AI的速度上,真的是CPU不能比的。而拥有了CUDA原生支持的英伟达GPU,更是首要之选。到现在,资本们已经看到了AI的重要之处,为什么大家都还在卷AI模型,而不去卷老黄的市场呢?原因在于,它们已经很难再拿到AI加速芯片的入场券了。在人工智能产业上,整个深度学习的框架已经是老黄的形状了。AI发展的数十年间,英伟达通过对CUDA开发和社区的持续投入,CUDA和各类AI框架深度绑定。当今使用排行靠前的各类AI框架,就没有不支持CUDA的,也就是说你想要让你的深度学习跑的快?买张支持CUDA的高性能卡是最好的选择,说人话就是——买N卡吧。当然,在CUDA大力发展期间,也有其它公司在尝试着打破英伟达这种接近垄断的局面。2008苹果就提过出OpenCL规范,这是一个统一的开放API,旨在为各种不同的GPU型号提供一个规范,用以开发类似CUDA的通用计算软件框架。但是,通用就意味着不一定好用。因为各大厂商GPU的型号繁而复杂,为了适应各种硬件,驱动版本也多如牛毛,质量参差不齐。而且缺少对应的厂商进行针对性的优化,所以,无论是哪一个版本的OpenCL,在同等算力下,都比不过使用CUDA的速度。而且恰恰是因为OpenCL的通用性,想要开发支持OpenCL的框架,要比开发CUDA的复杂不少。原因还是同一个,缺少官方的支持,看看英伟达对CUDA开发的工具支持吧,CUDAToolkit,NVIDIAGPUComputingSDK以及NSight等等。OpenCL这边,就略显寒酸了……这就导致如今能支持OpenCL的深度学习框架寥寥无几。举个很简单的例子,当下最火的框架PyTorch,就连官方都没有专门对OpenCL进行支持,还得靠着第三方开源项目才能用。那同为显卡供应商的AMD,在面对老黄如日中天的CUDA时,除了OpenCL,有没有自己的解决办法呢?方法确实是有,但效果也确实不咋的。2016年AMD发布了全新的开放计算平台——ROCm,对标的就是英伟达的CUDA,最关键的一点是,它还在源码级别上对CUDA程序进行支持。你看,就算是老黄的死对头AMD,想的也不是另起炉灶,而是降低自己适配CUDA的门槛……但是,时至今日,ROCm依然还是只支持Linux平台,可能也是用的人太少了,有点摆烂的味道,毕竟,既然你支持CUDA,那我为什么要费尽心力去给你的ROCm专门编写一套支持框架呢?同年,Google也有了行动,但毕竟不是芯片制造商,Google只是推出了自己的TPU平台,专门针对自家的TensorFlow框架进行优化,当然原生支持的最好的也只有TensorFlow了。至于英特尔那边,也推出了一个OneAPI,对标老黄的CUDA,不过由于起步较晚,现在还处于发展生态的环节,未来会怎样还不太好说。所以靠着先发优势还有原生支持,导致现在的深度学习,基本上离不开英伟达的GPU和他的CUDA。最近大火的ChatGPT,就用了老黄的HGX主板和A100芯片,而老黄对此也是很有自信的说道:“现在唯一可以实际处理ChatGPT的GPU,那就只有我们家的HGXA100。”没错,没有其它可用的了,这就是老黄的有恃无恐。而随着OpenAI对大模型AI的成功验证,各家巨头对大模型AI的纷纷入局,英伟达的卡已经立马成了抢手货。所以如今的AI创业公司,出现了一件很有意思的现象,在他们的项目报告上,往往会搭上一句我们拥有多少块英伟达的A100。当大家在AI行业纷纷投资淘金时,英伟达就这样靠着给大家卖水——提供AI加速卡,大赚特赚,关键还在于,只有它卖的水能解渴。因为它的硬件以及工具集,已经能影响到整个AI产业的战局和发展速度了。更可怕的是,英伟达的优势已经形成了一种壁垒,这壁垒厚到就连全球第二大GPU厂商AMD都没有办法击穿。所以在AI大浪滔天的现在,能整出属于自己的AI大模型固然重要,但差评君却觉得,啥时候能有自己的英伟达和CUDA也同样不可小觑。当然,这条路也更难。最后,差评君觉得在未来,我们需要抓紧突破的,绝对不只是对人工智能大模型相关的研究,更为重要的是整个计算芯片的设计,制造,以及AI生态的建设。新的工业革命已经到来,A...PC版:https://www.cnbeta.com.tw/articles/soft/1352789.htm手机版:https://m.cnbeta.com.tw/view/1352789.htm