下一代注释工具,整合了计算机视觉最先进模型的强大功能,让标注图像数据集变得比以往更容易,提供无缝的体验和直观的工作流程。

下一代注释工具,整合了计算机视觉最先进模型的强大功能,让标注图像数据集变得比以往更容易,提供无缝的体验和直观的工作流程。 其他特性 阈值选择(置信度和 IoU) 选择类(从 80 个 COCO 类中),并可以选择保存默认类 仅跟踪分配的对象 合并模型(运行两个模型并合并结果) 显示运行时类型(CPU/GPU) 显示 GPU 内存使用情况 视频导航(逐帧、快进、快退、播放/暂停) 浅色/深色主题支持(与操作系统主题同步) 完全可定制的用户界面(拖放、显示/隐藏) 操作系统通知(针对长时间运行的任务) 使用 orjson 实现更快的 json 序列化 附加脚本(外部)来评估分割结果(COCO) 用于从视频文件中提取帧以供将来使用的附加脚本(外部) 用户快捷方式和首选项设置 | #工具

相关推荐

封面图片

加州大学河滨分校研究人员通过软件调整消除瓶颈 将计算机处理速度提升一倍

加州大学河滨分校研究人员通过软件调整消除瓶颈 将计算机处理速度提升一倍 从智能手机和个人电脑到数据中心服务器,大多数现代计算机都包含用于人工智能和机器学习的图形处理器(GPU)和硬件加速器。著名的商业案例包括NVIDIA GPU 上的张量核心(Tensor Cores)、Google云服务器上的张量处理单元(TPU)、苹果 iPhone 上的神经引擎(Neural Engines)以及Google Pixel 手机上的边缘 TPU。这些组件各自处理信息,将信息从一个处理单元转移到下一个处理单元时往往会造成数据流的瓶颈。在一项新的研究中,加州大学河滨分校(UCR)的研究人员展示了一种方法,让现有的不同组件同时运行,从而大大提高处理速度并降低能耗。加州大学洛杉矶分校电气与计算机工程系副教授、该研究的共同第一作者曾宏伟说:"不必增加新的处理器,因为你已经拥有了它们。"研究人员的框架被称为同步异构多线程(SHMT),它摒弃了传统的编程模式,即只能将代码区域专门委托给一种处理器,而让其他资源闲置,不为当前功能做贡献。相反,SHMT 利用了多个组件的多样性或异质性,将计算功能拆分开来,让它们共享。换句话说,这是一种并行处理。比较 (a) 传统异构计算机、(b) 带有软件流水线的传统异构计算机和 (c) SHMT 执行功能的方式 图/Hsu 和 Tseng工作原理您可以跳过这部分内容,但对于计算机科学爱好者来说,下面是有关 SHMT 工作原理的概述(仍然非常基础)。一组虚拟操作(VOPs)允许 CPU 程序将功能"卸载"到虚拟硬件设备上。在程序执行过程中,运行时系统会驱动 SHMT 的虚拟硬件,衡量硬件资源的能力以做出调度决策。SHMT 采用质量感知工作抢占(QAWS)调度策略,不会占用资源,但有助于保持质量控制和工作负载平衡。运行时系统将 VOP 分成一个或多个高级操作 (HLOP),以便同时使用多个硬件资源。然后,SHMT 的运行时系统将这些 HLOP 分配到目标硬件的任务队列中。由于 HLOP 与硬件无关,运行时系统可以根据需要调整任务分配。原型测试和结果为了测试这一概念,研究人员构建了一个系统,该系统采用的芯片和处理能力可以在任何像样的后期型号智能手机中找到,并做了一些调整,这样他们还可以测试该系统在数据中心中的功能。SHMT 原型平台具体来说,他们使用NVIDIA的Jetson Nano模块定制了一个嵌入式系统平台,该模块包含一个四核 ARM Cortex-A57 处理器(CPU)和 128 个 Maxwell 架构 GPU 内核。Google Edge TPU 通过其 M.2 Key E 插槽与系统相连。中央处理器、图形处理器和 TPU 通过板载 PCIe 接口交换数据,PCIe 接口是主板组件(如图形卡、内存和存储设备)的标准化接口。系统的主内存(4 GB 64 位 LPDDR4,1,600 MHz,25.6 GB/s)托管共享数据。Edge TPU 还包含一个 8 MB 的设备内存,并使用 Ubuntu Linux 18.04 作为操作系统。使用基准应用程序对 SHMT 概念进行了测试后发现,采用性能最佳的 QAWS 策略的框架将其发挥得淋漓尽致,与基准方法相比,速度提高了 1.95 倍,能耗显著降低了 51%。采用不同调度策略的 SHMT 速度提升(相对于基准 GPU)这一切意味着什么?研究人员说,这对 SHMT 的影响是巨大的。现有手机、平板电脑、台式机和笔记本电脑上的软件应用程序可以利用这个新的软件库实现一些相当惊人的性能提升。但它也能减少对昂贵的高性能组件的需求,从而带来更便宜、更高效的设备。由于这种方法可以减少能源消耗,进而降低制冷需求,因此可以优化数据中心的两个关键项目,同时还能减少碳排放和用水量。能源消耗和能源延迟产品 图/加州大学河滨分校与往常一样,我们还需要对系统的实施、硬件支持以及哪类应用最受益等方面进行进一步的研究,但有了这些成果,我们相信该团队在吸引资源将其推广开来方面不会遇到什么困难。这项研究在第 56 届 IEEE/ACM 微体系结构国际研讨会MICRO 2023 上发表。 ... PC版: 手机版:

封面图片

私人自托管大型语言模型:运行经验分享与注意事项

私人自托管大型语言模型:运行经验分享与注意事项 最近半年大型语言模型非常火爆,笔者本人循着开源精神,试着搭建过自托管(self-host)大模型,也踩过不少坑,现在来分享一下经验。 1. 最容易/成熟的选择: llama的,之前还需要申请llama的模型访问权限后才能加载他们的增量(类似于需要有stable diffusion 模型才能加载LoRa),但是是由于llama模型的到处都是了, 所以现在他们直接放出了所有权重可以直接部署。(而且脚本都给你写好了。 2.如何部署: 7B的模型需要14GVRAM,13B需要28-30VRAM(28G可以加载模型,一推理就会oom),而最新的33B模型需要至少80G VRAM进行部署。同时,多GPU不能分担显存需求,除非是裸机级别的NVlink(VPS因为不保证你租到的是相邻两个有NVlink的GPU,可能部署没问题,但是一进行推理就会炸显存,因为pcl express带宽不够)。 那么最好的选择是Vultr,他们是少数几家有80G 级别的A100商家,而且能按小时付费,价格是Azure之类的1/2一下。 但是要注意的是,他们家默认credit limit是$1,000/mo 但是A100价格是$1,750/mo,尽管按小时计费,但是因为月度credit limit不够,会直接开不出来,需要正常使用他们家其他服务几个月后,才能申请增加额度。(本人是几年的老用户,来回发了4-5份工单才同意增额的)。 但是如果只是体验一下13B的model的话,可以租用半个GPU(40G VRAM,够用). 3.进一步省钱的办法: 看好需要VRAM额度,租用1/2个或1/3个GPU足以。 同时善用他们家的快照功能,如果你不熟悉linux命令的话,可以先租用一个50-100G SSD的CPU VPS (取决于模型大小)(每个小时只要 $0.04-0.06,比GPU服务器便宜一个数量级),部署好后不启动,拍摄快照,再从快照还原到GPU服务器。(但是要注意拍摄快照与还原均需大约一个小时,如果你熟悉linux命令,你大约可以在30分钟内部署完成,快照反而会多花钱)。(注意记录下一开始的root密码,快照会还原原来的root密码,但不显示)。 5.模型感觉怎么样? 尽管宣传比肩ChartGPT,但是其实比ChartGPT差多了(大约有微软小冰的水平?)比如我蓄意给予错误的指令(“请告诉我有关阿里巴巴森林公园的情况”,他开始回答“阿里巴巴森林公园是一个风景秀丽,环境优美。。。。。。” 换成英文也得到类似的结果 "Please tell me something about Tencent National park" 也回答了类似的结果,而ChartGPT会质疑阿里巴巴是公司而非森林公园的名字)。(毕竟ChartGPT宣传是175B,和13B差差不多10倍) 6.最后: 美国有传闻要禁止中国公司或公民在外国租用高端计算卡以绕过显卡禁令,尚不知是否会波及类似用例(因为只是单显卡,未进行互联,而A800砍的是互联能力)。希望不会吧。

封面图片

黄仁勋剧透下一代GPU芯片 新演讲又把摩尔定律按在地上摩擦

黄仁勋剧透下一代GPU芯片 新演讲又把摩尔定律按在地上摩擦 好好好,像做iPhone一样造芯片。到这一代Blackwell为止,英伟达已经把AI模型有效扩展到万亿参数。(还给token定了个译名:词元)。1.8万亿参数GPT4的训练能耗,8年降低至原来的1/350。推理能耗,8年降低至原来的1/45000。看着这一波亮相和剧透,网友真相了:英伟达没有竞争对手,而是选择将摩尔定律放在地上摩擦……老黄是在书写自己的定律。所以应该叫老黄定律?还是英伟达定律?ComputeX前夜,老黄一开场就展开了一波隐形卖货,他自称不太准确的“CEO数学”:买得越多,省得越多……The more you buy, the more you save.经典语录依然引发现场欢呼大笑:虽然不太准确,但好像有些道理……除此之外,还有一些新产品亮相,包括能够模拟气冲的天气预测模型CorriDiff、数字人微服务、BlackWell系统、Spectrum-X、机器人平台Isaac……好了话不多说,这就来看看老黄这次到底搞了哪些事情“AI Factory Is generating”谈到当前新的产业革命,老黄表示:新的计算时代正在开始;而AI Factory正在诞生。他在现场展示了BlackWell系统。3月份GTC大会上还遮遮掩掩地说是GPT-MoE-1.8T模型,这下彻底摊牌了:GPT-4参数就是1.8T。跟DGX Hopper相比。现场还看到了它的真身,大概有两米那么高吧…而真正的AI Factory大概会长这样,大概有32000GPU。AI加速每个应用程序AI对于企业的影响,老黄认为AI加速每一个应用程序。他首先谈到了NIM推理微服务,这是一个帮助开发者或者企业轻松构建AI应用,简化大模型部署程序。不管是聊天机器人、还是生活/驾驶助手等,部署时间都能从几周缩短到几分钟。运行Meta Llama 3-8B的NIM可以产生比不使用NIM多3倍的tokens。企业和开发者可以使用NIM运行生成文本、图像、视频、语音和数字人类的应用程序。而背后源于丰富的技术合作生态近200家技术合作伙伴,包括Cadence、Cloudera、Cohesity、DataStax、NetApp、Scale AI和Synopsys等,正在将NIM集成到他们的平台中。此次在这个NIM中还有上新,也就是ACE 生成式AI微服务,数字人AI技术套件。除了原有自动语音识别、文本到语音的转换和翻译、Nemotron语言模型、 Audio2Face等套件,还增加了两个技术:一个是可以基于音轨生成身体姿势Audio2Gesture;一个Nemotron-3 4.5B,这是英伟达首款SLM(小爱语言模型),专为低延迟端侧设备而生。∂接下来,这一数字人微服务将部署在一亿台RTX AI PC上面。当前英伟达在新的合作伙伴,比如华硕、MSI的加入下,已经拥有超过200种RTX AI PC型号。还推出了RTX AI Toolkit,一个工具和SDK集合,帮助Windows开发者定制优化本地部署模型。同Mac相比,部署了RTX的Windows的Stable Diffusion推理速度是Mac的7倍。每一台带有RTX的PC,都是一台RTX AIPC。用于机器人开发的技术平台Isaac这次一同亮相的,还有用于机器人开发的技术平台,NVIDIA Isaac。为啥搞这玩意儿呢,老黄给出的理由是这样的:机器人时代已经到来。有朝一日,所有会移动的东西,都将实现自主化。这个Isaac平台具体长啥样呢?Isaac平台提供一系列英伟达加速库、AI基础模型和仿真技术,供机器人制造商集成到自己的技术栈中。注意,平台是模块化的,允许公司单独或一起采用多种技术。具体而言,其中包括:NVIDIA Isaac ROS:一系列模块化的ROS 2包,为ROS社区开发者带来NVIDIA加速和AI模型NVIDIA Isaac Perceptor:一个参考工作流程,提供基于AI的自主移动机器人的多摄像头3D环视能力NVIDIA Isaac Manipulator:一个简化AI启用机械臂开发的参考工作流程NVIDIA Isaac Sim:一款参考应用程序,用于在基于NVIDIA Omniverse平台的物理环境中模拟、测试和验证机器人,并生成合成数据NVIDIA Isaac Lab:Isaac Sim中的参考应用程序,针对AI机器人基础模型训练的强化、模仿和迁移学习进行了优化据介绍,目前,包括比亚迪电子、西门子、泰瑞达机器人和Intrinsic(Alphabet的子公司)在内,全球超多名列前茅的机器人开发团队,都在采用Isaac平台。这些团队用上Isaac,一边提高制造工厂、仓库和配送中心的效率,同时确保人类同事的安全;一边也能充当重复劳动和超精确任务的执行者。现场放出了很多demo,很多工厂在英伟达Omniverse里建造了一个完全模拟现实的自助工厂,以及基于Isaac平台开发的AI机器人。官网悄悄推出游戏Agent助手除了现场老黄亲自发布的上述内容外,我们在英伟达官网还找到了一个彩蛋,一个巨久远的call back。Project G-Assist。时间回到2017年愚人节,英伟达官网开了个大玩笑:宣称自家发布了一款支持10080款游戏的USB人工智能超算卡GeForce GTX G-Assist。重点在于它很AI。GeForce GTX G-Assist像是个AI游戏助手,可以帮助玩家自动完成游戏操作,甚至代打击败Boss。今天,英伟达真的将这个愚人节玩笑变为现实英伟达官网上线Project G-Assist,一套工具和模型的集合而成的AI Agent系统,供游戏和应用程序开发者使用。通过前后剧情,Project G-Assist利用大模型对游戏输出响应,能够检查游戏性能和系统设置,建议用户优化以充分利用可用硬件,或者适当升级角色。玩家这边呢,还可以通过Project G-Assist找到最好的武器,也可以查询到最牛的攻略,然后就可以或制作武器材料,或一路杀怪通关。总而言之,Project G-Assist可以让人有个Agent外挂,但是不会让你完全挂机,官网还贴心表示:G-Assist 项目不会像我们在2017年愚人节预言视频中那样完全替代您玩游戏,但它可以帮助您从您最喜欢的游戏中获得更多收益。游戏体验再上大分!据介绍,Project G-Assist支持各种模态的输入。可以是来自玩家的文本提示,或声音指令;可以是屏幕上显示框架的上下文;可以是来自应用程序或系统本身的API。△演示人员语音输入中这些数据都通过连接了游戏知识数据库的大模型处理,然后使用RAG(检索增强生成)生成和用户相关的查询结果没错,Project G-Assist允许玩家使用PC或云端RTX AI驱动的知识库。Project G-Assist开发工具将出现在即将推出的RTX AI开发套件中,具体会用在哪些游戏上,还需要游戏开发商来决定并提供支持。为了让大家更好地使用Project G-Assist,英伟达贴心地附上视频教学大礼包,需要可自取。One More Thing整场发布会,老黄还整了不少活儿。比如AI老黄似乎已经成了发布会常客。在介绍天气预测模型时,他坦白承认在视频中那么流利讲普通话的那位是AI生成的,因为自己中文不太好。而本场重磅的BlackWell系统、AI Factory的核心构成,也被他各种搬来搬去……除了下一代GPU取名Rubin,我们还看到 Vera CPU,他们共同出现在新的Vera Rubin加速器上。而这一名称来源,实际上是来自美国一位女天文学家Vera Rubin,她是研究暗物质先驱。以及,COMPUTEX 2024不愧是6月开头就炸场的AI终端大戏。除了黄院士外,英特尔、AMD、高通等老板都悉数到场,接下来几天会挨个发表演讲。这些主题演讲,绝大部分都跟AIPC有关。大家一起蹲一蹲吧~ ... PC版: 手机版:

封面图片

随后的调查发现,App Store 中的恶意应用程序感染了包含相同木马的框架。例如,iOS 版 ComeCome 的感染方式与

随后的调查发现,App Store 中的恶意应用程序感染了包含相同木马的框架。例如,iOS 版 ComeCome 的感染方式与 Android 版相同。这是首次在 Apple 官方应用市场中发现感染 OCR 间谍软件的应用程序。 App Store 应用中的恶意框架 我们在 App Store 中检测到一系列嵌入恶意框架的应用程序。我们无法确定感染是供应链攻击的结果还是开发人员的蓄意行为。其中一些应用程序(例如送餐服务)似乎是合法的,而其他一些应用程序显然是为了引诱受害者而构建的。例如,我们看到了同一开发人员开发的几款类似的具有 AI 功能的“消息应用程序”: 除了恶意框架本身之外,一些受感染的应用程序在根文件夹中还包含一个modify_gzip.rb脚本。开发人员显然使用它来将框架嵌入到应用程序中: 该框架本身是用 Objective-C 编写的,并使用HikariLLVM进行混淆。在我们检测到的应用程序中,它有以下三个名称之一: 压缩; 谷歌应用程序开发工具包; 统计。 与 Android 版本一样,iOS 恶意软件也使用了ML Kit接口,该接口可以访问经过训练的 Google OCR 模型来识别文本,以及实现自定义 C2 通信协议的 Rust 库。但是,在这种情况下,它直接嵌入到恶意可执行文件中。与 Android 版本不同,iOS 框架保留了调试符号,这使我们能够识别出几个独特的细节: 这些行显示了框架创建者设备上存储项目的路径,包括用户名: /Users/qiongwu/:项目作者的主目录 /Users/quiwengjing/:Rust 库创建者的主目录 C2-rust 通信模块名为im_net_sys。除了客户端之外,它还包含攻击者服务器可能用来与受害者通信的代码。 该项目的原始名称是GZIP。 该框架包含多个恶意类。以下是特别值得关注的: MMMaker:下载配置并收集有关设备的信息。 ApiMgr:发送设备数据。 PhotoMgr:在设备上搜索包含关键字的照片并将其上传到服务器。 MMCore:存储有关 C2 会话的信息。 MMLocationMgr:收集设备的当前位置。在我们的测试期间,它没有发送任何数据,因此此类的确切用途尚不清楚。 某些类(例如MMMaker)可能在框架的早期版本中缺失或使用不同的名称,但这并没有改变恶意软件的核心功能。 混淆大大增加了样本的静态分析的复杂性,因为字符串是加密的,程序的控制流也被模糊了。为了快速解密感兴趣的字符串,我们选择了动态分析。我们在 Frida 下运行该应用程序,并捕获了存储这些字符串的_data部分的转储。引起我们注意的是,应用程序的 bundleID 位于解密数据之中 我们的结论如下: 该木马的行为会根据其运行的应用程序而有所不同。 可能被感染的应用程序比我们原先想象的要多。 在调查期间,与这些 ID 关联的部分应用已从 App Store 中移除,而其他一些应用仍然存在且包含恶意代码。列表中的部分 ID 指的是调查期间不包含恶意框架的应用: com.kh-super.ios.superapp com.unicornsoft.unicornhttpsforios 与 Android 专用版本一样,该木马实现了三种 OCR 输出过滤模式:关键字、词长和以加密形式存储在框架内部的“wordlists”文件夹中的本地化词典。遗憾的是,我们无法确定该恶意软件是否确实使用了最后一种方法。我们分析的所有样本均未包含词典链接或在运行时访问过这些词典。 发送包含关键字的选定照片是恶意框架运行的关键步骤。与 Android 应用程序类似,该木马仅在启动负责显示支持聊天的视图控制器时请求访问图库的权限。在初始化阶段,该木马根据其运行的应用程序,用自己的包装器替换相关控制器中的viewDidLoad或viewWillAppear方法,并调用方法+[PhotoMgr startTask:]。然后后者检查应用程序是否有权访问图库,并在需要时请求访问。接下来,如果获得访问权限,PhotoMgr会在可用且未处理过的照片中搜索符合发送条件的照片。 我们认为,此次攻击活动至少针对的是欧洲和亚洲的 Android 和 iOS 用户,如下所示: 所使用的关键词是欧洲和亚洲国家居民的各种母语。 资产内的词典以与关键字相同的方式本地化。 一些应用程序似乎在多个国家运营。一些送餐应用程序支持使用阿联酋、哈萨克斯坦、中国、印度尼西亚、津巴布韦和其他国家的电话号码进行注册。 我们怀疑除欧洲和亚洲之外的其他地区的移动用户也可能成为此次恶意活动的目标。 我们开始调查的第一个恶意模块名为“Spark”。当我们分析 iOS 专用木马时,恶意框架本身的捆绑包 ID“bigCat.GZIPApp”引起了我们的注意。因此得名“SparkCat”。以下是此恶意软件的一些特征: 跨平台兼容性; 使用在移动应用中很少见的 Rust 编程语言; 官方应用市场作为传播载体; 隐秘性,C2 域经常模仿合法服务和伪装成系统包的恶意框架; 混淆,阻碍分析和检测。 结论 不幸的是,尽管官方市场进行了严格审查,并且人们普遍意识到了基于 OCR 的加密钱包盗窃骗局,但受感染的应用程序仍然进入了 Google Play 和 App Store。这种木马特别危险的原因在于,没有迹象表明应用程序中隐藏了恶意植入物。它请求的权限可能看起来像是其核心功能所需的权限,或者乍一看似乎无害。该恶意软件的运行也相当隐秘。这个案例再次打破了 iOS 在某种程度上不受针对 Android 的恶意应用程序威胁影响的神话。以下是一些可以帮助您避免成为此恶意软件受害者的提示: 如果您的设备上安装了受感染的应用程序,请将其删除,并且避免重新安装,直到修复程序发布为止。 避免将包含敏感信息的截图(例如加密钱包恢复短语)存储在图库中。您可以将密码、机密文件和其他敏感信息存储在特殊应用中。 在所有设备上使用强大的安全产品。 我们的安全产品在检测到与此活动相关的恶意软件时返回以下结论: HEUR:Trojan.IphoneOS.SparkCat.* HEUR:Trojan.AndroidOS.SparkCat.*

封面图片

SRAM,不能微缩?还能救救

SRAM,不能微缩?还能救救 而后者SRAM与之相比,因其无需周期性更新存储的数据,通电情况下数据可一直保存,具有访问速度快的优点,通常用于CPU的高速缓存上面,但它处理1比特数据需要六个晶体管,而DRAM仅需一个晶体管,也导致了集成度较低,在相同体积下容量较小,存在体积大、成本较高等缺点。新思界产业研究中心的报告显示,2021年,全球半导体存储器市场规模达到1540亿美元左右,其中SRAM市场规模仅占极小一部分,2021年全球SRAM市场规模约为4亿美元。在全球范围内,美国是最大的SRAM需求市场,其次是日本。全球范围内,SRAM市场主要被美国赛普拉斯(Cypres)、日本瑞萨电子(Renesas)、美国ISSI公司(被北京君正收购)三家厂商所占据,合计市场占有率达到82%。在2023年以前,SRAM向来是最被冷落的存储技术之一,但随着近一年AI的爆火,情况正在悄然改变。AI带火SRAM2024年2月,GoogleTPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布,其新一代LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍,后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。在首次公开基准测试结果中,Groq搭载的Llama2或Mistreal模型在计算和响应速度上远超ChatGPT。这一成绩背后,是Groq团队为大语言模型(LLM)量身定制的专用芯片(ASIC),它使得Groq每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。根据知情人士透露,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。更重要的是,不同于其他GPU依赖于高速数据传输,Groq的LPU并没有采用高带宽存储器(HBM),它选择的正是SRAM,其速度比GPU所用的存储器快约20倍。一时间,和SRAM相关的概念股都成了香饽饽,不少人争先恐后地在投资平台询问AI相关,SRAM俨然成了又一个HBM。不过,很快就有专业人士给这波突如其来的热潮降温了:SRAM早就是个非常成熟的技术了,CPU中的寄存器和缓存都用的是SRAM,SRAM早已以IP内核形式完成在SoC的集成,本身的技术价值没有更大的突破。虽然SRAM确实要比DRAM快,但其价格很贵,容量较小,LPU乃至其他计算芯片,大量使用SRAM时需要有所权衡。此外,也有人指出Groq选择了SRAM的理由,主要是它只负责推理、不训练,而推理所需要的存储空间比训练要小得多,所以Groq的单板卡只有230MB的内存,由于成本和容量限制,需要谨慎看待SRAM这轮爆火。即便如此,AI还是给体量较小的SRAM打开了一条透着光的缝隙,一个全新的应用领域,就意味着更多的增长机会,而不是局限在之前的一亩三分地上。有意思的是,早在Groq官宣新的LPU前,国外网站半导体工程已经与 Alphawave Semi 首席技术官 Tony Chan Carusone、Quadric 首席营销官 Steve Roddy 和西门子 EDA 存储技术专家 Jongsin Yun 就人工智能和 SRAM 的最新问题进行了讨论。西门子 EDA 存储技术专家 Jongsin Yun表示, SRAM 与 CMOS 逻辑工艺兼容,这使得 SRAM 在从一种技术迁移到另一种技术时,可以跟踪逻辑性能的提高。SRAM 是芯片内的本地可用存储器。因此,它能提供即时访问的数据,这也是它在人工智能应用中受到青睐的原因。凭借数十年的制造经验,我们了解其大部分潜在问题以及如何最大限度地发挥其优势。就性能而言,SRAM 是我们迄今所知性能最高的内存解决方案,因此成为人工智能的首选。Quadric 首席营销官 Steve Roddy 则表示,SRAM 是任何人工智能处理解决方案的关键要素,SRAM 的用量在很大程度上取决于你谈论的是数据中心还是设备,或者是训练还是推理。但不论何种应用,在处理元件旁边都会有大量的 SRAM。不同类型计算实现之间的所有架构差异,归根结底都是管理内存、管理权重和激活流的不同策略,而这又极大地依赖于可用和可选的内存类型。任何芯片架构师都要根据自己的部署方案有效地规划内存层次结构,但在任何方案中,都必须有 SRAM。Alphawave Semi 首席技术官 Tony Chan Carusone也表示,SRAM 对人工智能至关重要,尤其是嵌入式 SRAM。它的性能最高,而且可以直接与高密度逻辑集成在一起。仅从这些原因来看,它就非常重要。逻辑的扩展性要好于 SRAM。因此,SRAM 变得更加重要,并占用了更大一部分芯片面积。一些处理器上有大量的 SRAM,而且这种趋势可能会继续下去,这将成为整个处理器的一个重要成本驱动因素。一个新趋势是,将这些已达到视网膜极限的大型芯片分解成多个芯片组,并通过适当的互连,使它们能够像一个大型芯片一样运行,从而集成更多的计算和更多的 SRAM。反过来,大量的 SRAM 又进一步推动了向基于芯片的实现过渡。通过这几位专家的讨论我们可以发现,即便是不像Groq那样直接把SRAM当作内存来使用,AI依旧和SRAM脱不开干系,SRAM未来也有望随着AI的火热来焕发第二春。SRAM的绊脚石但困扰SRAM的,远不止应用,还有技术。前面提到过,SRAM采用的是6晶体管架构(逻辑区通常包含4个晶体管/单元),但是,在跟上 CMOS 缩放的步伐时,SRAM 却表现不佳,这对功耗和性能产生了影响。随着人工智能设计对内部存储器访问的要求越来越高,如何在技术节点迁移过程中进一步扩大 SRAM 的功耗和性能优势已成为一项重大挑战。在2022年底,台积电的一篇论文带来了可怕的坏消息虽然逻辑仍在或多或少地沿着历史趋势线扩展,但 SRAM 扩展似乎已经完全崩溃。台积电曾在正式推出 N3 制造技术时表示,与 N5(5 纳米级)工艺相比,新节点的逻辑密度将提高 1.6 倍和 1.7 倍,而台积电在论文却承认,与 N5 相比,新技术的 SRAM 单元几乎没有扩展。台积电 N3 的 SRAM 位元尺寸为 0.0199µm^²,与 N5 的 0.021 µm^² SRAM 位元相比,仅缩小了约 5%。改进后的 N3E 情况更糟,因为它配备了 0.021 µm^² SRAM 位元组(大致相当于 31.8 Mib/mm^²),这意味着与 N5 相比完全没有缩放。随着芯片性能的增长,对缓存和 SRAM 的需求只会增加,但 N3(仅用于少数产品)和 N3E 却无法减少 SRAM 占用的芯片面积,也无法降低新节点比 N5 更高的成本。从根本上说,这意味着高性能处理器的芯片尺寸将增大,成本也将增加,同时SRAM 单元也会与逻辑单元一样容易出现缺陷。虽然芯片设计人员将能够利用台积电 N3 的 FinFlex 创新技术(在一个区块中混合和匹配不同种类的 FinFET,以优化其性能、功耗或面积)来缓解 SRAM 单元变大的问题,但无法根治SRAM无法扩展这一问题事实上,早在 20nm 制程中,SRAM 就无法与逻辑相应地扩展,这也注定了当片上存储器变得比芯片本身还要大时,会面临功耗和性能方面的挑战。而针对这些问题,系统设计人员和硬件开发人员也从那时就在不断提出新的解决方案和开发新的技术。AMD采取了不同的方法。它推出了一种名为 3D V-Cache 的技术,该技术允许将单独芯片上的附加 SRAM 高速缓存存储器堆叠在处理器顶部,从而增加处理器内核可用的高速缓存量。额外的芯片增加了成本,但允许访问额外的 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人