：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Tr

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Transformer模型提供服务。主要特点可扩展且高度可配置：使用 Inferflow 服务新模型的典型方法是编辑模型规范文件，但不添加/编辑源代码。我们在 Inferflow 中实现了原子构建块和技术的模块化框架，使其在组合上可推广到新模型。如果该模型中的原子构建块和技术（对于 Inferflow）“已知”，则 Inferflow 可以为该新模型提供服务。 3.5位量化：Inferflow实现2位、3位、3.5位、4位、5位、6位和8位量化。在量化方案中，3.5位量化是Inferflow推出的新方案。多GPU推理的混合模型分区：Inferflow支持多GPU推理，具有三种模型分区策略可供选择：按层分区（管道并行）、按张量分区（张量并行）和混合分区（混合并行））。其他推理引擎很少支持混合分区。宽文件格式支持（并安全加载pickle数据）：Inferflow支持直接加载多种文件格式的模型，而不依赖于外部转换器。支持的格式包括pickle、safetensors、llama.cpp gguf等。众所周知，使用Python代码读取pickle文件存在安全问题。通过在 C++ 中实现简化的 pickle 解析器，Inferflow 支持从 pickle 数据安全地加载模型。广泛的网络类型支持：支持三种类型的变压器模型：仅解码器模型、仅编码器模型和编码器-解码器模型。 GPU/CPU混合推理：支持仅GPU、仅CPU、GPU/CPU混合推理。

在Telegram中查看

相关推荐

Google：引领AI推理工作量的是CPU而非GPU

Google：引领AI推理工作量的是CPU而非GPU 人工智能的生命周期分为两个部分：训练和推理。在训练过程中，需要大量的计算能力和巨大的内存容量，以便将不断扩大的人工智能模型装入内存。最新的模型，如 GPT-4 和 Gemini，包含数十亿个参数，需要数千个 GPU 或其他加速器并行工作，才能高效地进行训练。另一方面，推理所需的计算强度较低，但仍能从加速中获益。在推理过程中，会对预先训练好的模型进行优化和部署，以便对新数据进行预测。虽然推理所需的计算量比训练少，但延迟和吞吐量对实时推理至关重要。Google发现，虽然 GPU 是训练阶段的理想选择，但模型通常在 CPU 上进行优化和推理。这意味着，有些客户出于各种原因选择 CPU 作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端 GPU 或专门的人工智能加速器相比，CPU 往往更便宜，也更容易获得。对于许多应用而言，CPU 能以较低的成本提供足够的推理性能。CPU 还具有灵活性。由于大多数系统已经配备了 CPU，它们为较小的人工智能模型提供了便捷的部署途径。GPU 通常需要专门的库和驱动程序，而基于 CPU 的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU 擅长大规模并行推理吞吐量。但 CPU 通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用，CPU 推理可能是首选。此外，CPU 对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔 AVX-512 和 AMX 等新指令的推动下，性能不断提高，仅靠 CPU 就能流畅运行人工智能工作负载，如果服务器配置了不止一个插槽，意味着有更多的人工智能引擎存在，服务器就能高效处理数十亿参数大小的人工智能模型，则性能尤其出色。英特尔指出，一般来说，参数不超过200 亿的模型在 CPU 上可以正常运行，而更大的模型则必须使用专门的加速器。像 GPT-4、Claude 和 Gemini 这样的人工智能模型都是庞大的模型，参数规模可达一万亿以上。然而，它们是多模式的，也就是说，它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档，以回答客户支持问题。对于这种解决方案来说，运行 GPT-4 这样的模型就显得多余了。相比之下，像LLAMA 2或 Mistral 这样小得多的模型可以很好地实现类似目的，而不需要第三方 API 访问，只需在本地或云服务器上运行几个 CPU 即可。这就降低了总体拥有成本（TCO），简化了人工智能管道。 ... PC版：手机版：

：全新的文本转语音(TTS)解决方案，具有高度自定义和灵活性，支持Linux和Windows系统，需要2GB的GPU内存进行推理

：全新的文本转语音(TTS)解决方案，具有高度自定义和灵活性，支持Linux和Windows系统，需要2GB的GPU内存进行推理，使用Flash-Attn进行推理和训练，支持VQGAN和Text2Semantic模型

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU？

AI推理速度提升超10倍 Groq LPU能否取代英伟达GPU？推理速度比GPU快10倍，功耗仅1/10据介绍，Groq的大模型推理芯片是全球首个LPU（Language Processing Unit）方案，是一款基于全新的TSA 架构的Tensor Streaming Processor (TSP) 芯片，旨在提高机器学习和人工智能等计算密集型工作负载的性能。虽然Groq的LPU并没有采用更本高昂的尖端制程工艺，而是选择了14nm制程，但是凭借自研的TSA 架构，Groq LPU 芯片具有高度的并行处理能力，可以同时处理数百万个数据流，并该芯片还集成了230MB容量的SRAM来替代DRAM，以保证内存带宽，其片上内存带宽高达80TB/s。根据官方的数据显示，Groq的LPU芯片的性能表现相当出色，可以提供高达1000 TOPS (Tera Operations Per Second) 的计算能力，并且在某些机器学习模型上的性能表现可以比常规的 GPU 和 TPU 提升10到100倍。Groq表示，基于其LPU芯片的云服务器在Llama2或Mistreal模型在计算和响应速度上远超基于NVIDIA AI GPU的ChatGPT，其每秒可以生成高达500个 token。相比之下，目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。由于ChatGPT-3.5主要是基于NVIDIA的GPU，也就是说，Groq LPU芯片的响应速度达到了NVIDIA GPU的10倍以上。Groq表示，相对于其他云平台厂商的大模型推理性能，基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。另外，在能耗方面，NVIDIAGPU需要大约10到30焦耳才能生成响应中的tokens，而Groq LPU芯片仅需1到3焦耳，在推理速度大幅提升10倍的同时，其能耗成本仅有NVIDIAGPU的十分之一，这等于是性价比提高了100倍。Groq公司在演示中展示了其芯片的强大性能，支持Mistral AI的Mixtral8x7B SMoE，以及Meta的Llama2的7B和70B等多种模型，支持使用4096字节的上下文长度，并可直接体验Demo。不仅如此，Groq还喊话各大公司，扬言在三年内超越NVIDIA。目前该公司的LPU推理芯片在第三方网站上的售价为2万多美元，低于NVIDIA H100的2.5-3万美元。资料显示，Groq 是一家成立于2016年人工智能硬件初创公司，核心团队来源于谷歌最初的张量处理单元（TPU）工程团队。Groq 创始人兼CEO Jonathan Ross是谷歌TPU项目的核心研发人员。该公司硬件工程副总裁Jim Miller 曾是亚马逊云计算服务AWS设计算力硬件的负责人，还曾在英特尔领导了所有 Pentium II 工程。目前该公司筹集了超过 6200 万美元。为何采用大容量SRAM？Groq LPU芯片与大多数其他初创公司和现有的AI处理器有着截然不同的时序指令集计算机（Temporal Instruction Set Computer）架构，它被设计为一个强大的单线程流处理器，配备了专门设计的指令集，旨在利用张量操作和张量移动，使机器学习模型能够更有效地执行。该架构的独特之处在于执行单元、片内的SRAM内存和其他执行单元之间的交互。它无需像使用HBM（高带宽内存）的GPU那样频繁地从内存中加载数据。Groq 的神奇之处不仅在于硬件，还在于软件。软件定义的硬件在这里发挥着重要作用。Groq 的软件将张量流模型或其他深度学习模型编译成独立的指令流，并提前进行高度协调和编排。编排来自编译器。它提前确定并计划整个执行，从而实现非常确定的计算。“这种确定性来自于我们的编译器静态调度所有指令单元的事实。这使我们无需进行任何激进的推测即可公开指令级并行性。芯片上没有分支目标缓冲区或缓存代理，”Groq 的首席架构师 Dennis Abts 解释道。Groq LPU芯片为了追求性能最大化，因此添加了更多SRAM内存和执行块。SRAM全名为“静态随机存取存储器”（Static Random-Access Memory）是随机存取存储器的一种。所谓的“静态”，是指这种存储器只要保持通电，里面储存的数据就可以恒常保持。相对之下，动态随机存取存储器（DRAM）里面所储存的数据则需要周期性地更新。自SRAM推出60多年来，其一直是低延迟和高可靠性应用的首选存储器，事实上，对于 AI/ML 应用来说，SRAM 不仅仅具有其自身的优势。SRAM 对于 AI 至关重要，尤其是嵌入式 SRAM，它是性能最高的存储器，可以将其直接与高密度逻辑核心集成在一起。目前SRAM也是被诸多CPU集成在片内（更靠近CPU计算单元），作为CPU的高速缓存，使得CPU可以更直接、更快速的从SRAM中获取重要的数据，无需去DRAM当中读取。只不过，当前旗舰级CPU当中的SRAM容量最多也仅有几十个MB。Groq之所以选择使用大容量的 SRAM来替代DRAM 内存的原因主要有以下几点：1、SRAM 内存的访问速度比 DRAM 内存快得多，这意味着 LPU 芯片更快速地处理数据，从而提高计算性能。2、SRAM 内存没有 DRAM 内存的刷新延迟，这意味着LPU芯片也可以更高效地处理数据，减少延迟带来的影响。3、SRAM 内存的功耗比 DRAM 内存低，这意味着LPU芯片可以更有效地管理能耗，从而提高效率。但是，对于SRAM来说，其也有着一些劣势：1、面积更大：在逻辑晶体管随着CMOS工艺持续微缩的同时，SRAM的微缩却十分的困难。事实上，早在 20nm时代，SRAM 就无法随着逻辑晶体管的微缩相应地微缩。2、容量小：SRAM 的容量比 DRAM 小得多，这是因为每个bit的数据需要更多的晶体管来存储，再加上SRAM的微缩非常困难，使得相同面积下，SRAM容量远低于DRAM等存储器。这也使得SRAM在面对需要存储大量数据时的应用受到了限制。3、成本高：SRAM 的成本比 DRAM要高得多，再加上相同容量下，SRAM需要更多的晶体管来存储数据，这也使得其成本更高。总的来说，虽然SRAM 在尺寸、容量和成本等方面具有一些劣势，这些劣势限制了其在某些应用中的应用，但是 SRAM 的访问速度比 DRAM 快得多，这使得它在某些计算密集型应用中表现得非常出色。Groq LPU 芯片采用的大容量 SRAM 内存可以提供更高的带宽（高达80TB/s）、更低的功耗和更低的延迟，从而提高机器学习和人工智能等计算密集型工作负载的效率。那么，与目前AI GPU当中所搭载的 HBM 内存相比，Groq LPU 芯片集成的 SRAM 内存又有何优势和劣势呢？Groq LPU 芯片的 SRAM 内存容量虽然有230MB，但是相比之下AI GPU 中的 HBM 容量通常都有数十GB（比如NVIDIA H100，其集成了80GB HBM），这也意味着LPU 芯片可能无法处理更大的数据集和更复杂的模型。相同容量下，SRAM的成本也比HBM更高。不过，与HBM 相比，Groq LPU 芯片的所集成的 SRAM 的仍然有着带宽更快（NVIDIA H100的HBM带宽仅3TB/s）、功耗更低、延迟更低的优势。能否替代NVIDIA H00？虽然Groq公布的数据似乎表明，其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上，并且能耗成本仅是它十分之一，等于是性价比提高了100倍。但是，Groq并且明确指出其比较的是NVIDIA的哪款GPU产品。由于目前NVIDIA最主流的AI GPU是H100，因此，我们就拿NVIDIA H100来与Groq LPU来做比较。由于Groq LPU只有230MB的片上SRAM来作为内存，因此，如果要运行Llama-2 70b模型，即使将Llama 2 70b量化到INT8精度，仍然需要70GB左右的内存。即使完全忽略内存消耗，也需要305张Groq LPU加速卡才够用。如果考虑到内存消耗，可能需要572张Groq LPU加速卡。官方数据显示，Groq LPU的平均功耗为185W，即使不计算外围设备的功耗，572张Groq LPU加速卡的总功耗也高达105.8kW。假设一张Groq LPU加速卡的价格为2万美元，因此，购买572张卡的成本高达1144万美元（规模采购价格应该可以更低）。根据人工智能科学家贾扬清分享的数据显示，目前，数据中心每月每千瓦的平均价格约为20美元，这意味着572张Groq LPU加速卡每年的电费为105.8*200*12=25.4万美元。贾扬清还表示，使用4张NVIDIA H100加速卡就可以实现572张Groq LPU一半的性能，这意味着一个8张H100的服务器的性能大致相当于572张Groq LPU。而8张H100加速卡... PC版：手机版：

: 用 Redis 作为矢量数据库，以简化在 Redis 中存储、检索以及对向量执行复杂语义和混合搜索的过程，对LLM应用提供更

: 用 Redis 作为矢量数据库，以简化在 Redis 中存储、检索以及对向量执行复杂语义和混合搜索的过程，对LLM应用提供更好的支持 RedisVL 具有许多强大的功能，旨在简化矢量数据库操作。索引管理：RedisVL 允许轻松创建、更新和删除索引。每个索引的模式可以在 yaml 中定义，也可以直接在 python 代码中定义，并在索引的整个生命周期中使用。嵌入创建：RedisVL 与 OpenAI、HuggingFace 和 GCP VertexAI 集成，以简化矢量化非结构化数据的过程。图像支持即将推出。提交新矢量化器的 PR。向量搜索：RedisVL 提供强大的搜索功能，使您能够同步和异步查询向量。还支持利用标签、地理、数字和其他过滤器（如全文搜索）的混合查询。强大的抽象：语义缓存：LLMCache是直接内置于 RedisVL 中的语义缓存接口。它允许缓存 GPT-3 等 LLM 生成的输出。由于语义搜索用于检查缓存，因此可以设置阈值来确定缓存结果是否足够相关以返回。如果没有，则调用模型并缓存结果以供将来使用。这可以提高 QPS 并降低在生产中使用 LLM 模型的成本。

LightNet 是一个基于流行的暗网平台的深度学习框架，旨在为计算机视觉任务创建高效、高速的卷积神经网络（CNN）。该框架经过

LightNet 是一个基于流行的暗网平台的深度学习框架，旨在为计算机视觉任务创建高效、高速的卷积神经网络（CNN）。该框架经过改进和优化，可为各种深度学习挑战提供更通用、更强大的解决方案。 LightNet 融合了多项前沿技术和优化来提高 CNN 模型的性能。主要特点包括： ●多任务学习除了暗网中的对象检测之外，LightNet 还经过扩展以支持语义分割学习，从而可以对图像内的对象进行更准确、更详细的分割。此功能支持训练 CNN 模型来识别和分类图像中的各个像素，从而实现更精确的对象检测和场景理解。例如，语义分割可用于识别图像中的各个对象，例如汽车或行人，并用相应的对象类别标记图像中的每个像素。这对于各种应用都很有用，包括自动驾驶和医学图像分析。 ●2:4 结构化稀疏性 2:4 结构化稀疏技术是一种减少 CNN 模型参数数量同时保持其性能的新颖方法。这种方法使模型更加高效并且需要更少的计算，从而缩短训练和推理时间。例如，使用 2:4 结构化稀疏性可以减少 CNN 模型的内存占用和计算要求，从而更容易部署在手机或嵌入式系统等资源受限的设备上。 ●通道修剪通道剪枝是一种优化技术，可以减少 CNN 模型中的通道数量，而不会显着影响其准确性。此方法有助于减小模型大小和计算要求，从而在保持性能的同时缩短训练和推理时间。例如，通道修剪可用于减少 CNN 模型中的通道数量，以便在低功耗处理器上进行实时处理，同时仍保持高精度。这对于在计算资源有限的设备上部署模型非常有用。 ●训练后量化（维护中）训练后量化 (PTQ) 是一种减少训练后 CNN 模型的内存占用和计算要求的技术。此功能目前正在维护中，将在未来版本中提供。 ●量化感知训练（未来支持）虽然 PTQ 被认为足以满足 NVIDIA GPU 上的 LightNet，但对于不支持每通道量化的 AI 处理器，我们可能会考虑根据需要添加对量化感知训练 (QAT) 的支持。 | #框架

谷歌TPU人马打造最快推理芯片喊话奥特曼：你们也太慢了

谷歌TPU人马打造最快推理芯片喊话奥特曼：你们也太慢了（这里面还有个熟悉的身影：Lepton）网友表示：这速度简直就是飞机vs走路。值得一提的是，这并非哪家大公司进展初创公司Groq，GoogleTPU团队原班人马，基于自研芯片推出推理加速方案。（注意不是马斯克的Grok）据他们介绍，其推理速度相较于英伟达GPU提高了10倍，成本却降低到十分之一。换言之，任何一个大模型都可以部署实现。目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型，并且可直接体验Demo。他们还在官网上喊话奥特曼：你们推出的东西太慢了……每秒接近500tokens既然如此，那就来体验一下这个号称“史上最快推理”的Groq。先声明：不比较生成质量。就像它自己说的那样，内容概不负责。目前，演示界面上有两种模型可以选择。就选择Mixtral 8x7B-32k和GPT-4同擂台对比一下。提示词：你是一个小学生，还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。结果啪的一下，只需1.76秒就生成了一长串读后感，速度在每秒478Tokens。不过内容是英文的，以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……至于GPT-4这边的表现，内容质量自然更好，也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成，也有近二十秒钟的时间。除了Demo演示外，Groq现在支持API访问，并且完全兼容，可直接从OpenAI的API进行简单切换。可以免费试用10天，这期间可以免费获得100万Tokens。目前支持Llama 2-70B 和7B， Groq可以实现4096的上下文长度，还有Mixtral 8x7B这一型号。当然也不局限于这些型号，Groq支持具体需求具体定制。价格方面，他们保证：一定低于市面上同等价格。不过可以看到，每秒500tokens似乎还不是终极速度，他们最快可以实现每秒750Tokens。GoogleTPU团队创业项目Groq是集软硬件服务于一体的大模型推理加速方案，成立于2016年，创始团队中很多都是GoogleTPU的原班人马。公司领导层的10人中，有5人都曾有Google的工作经历，3人曾在英特尔工作。创始人兼CEO Jonathan Ross，设计并实现了第一代TPU芯片的核心元件，TPU的研发工作中有20%都由他完成。Groq没有走GPU路线，而是自创了全球首个L（anguage）PU方案。LPU的核心奥义是克服两个LLM瓶颈计算密度和内存带宽，最终实现的LLM推理性能比其他基于云平台厂商快18倍。据此前他们介绍，英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens，而 Groq 设置每个tokens大约需要1焦耳到3焦耳。因此，推理速度提高了10倍，成本却降低了十分之一，或者说性价比提高了100倍。延迟方面，在运行70B模型时，输出第一个token时的延时仅有0.22秒。甚至为了适应Groq的性能水平，第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。据介绍，Groq的芯片采用14nm制程，搭载了230MB大SRAM来保证内存带宽，片上内存带宽达到了80TB/s。算力层面，Gorq芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度则为188TFLOPs。Groq主要基于该公司自研的TSP架构，其内存单元与向量和矩阵深度学习功能单元交错，从而利用机器学习工作负载固有的并行性对推理进行加速。在运算处理的同时，每个TSP都还具有网络交换的功能，可直接通过网络与其他TSP交换信息，无需依赖外部的网络设备，这种设计提高了系统的并行处理能力和效率。结合新设计的Dragonfly网络拓扑，hop数减少、通信延迟降低，使得传输效率进一步提高；同时软件调度网络带来了精确的流量控制和路径规划，从而提高了系统的整体性能。Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理，暂不支持模型训练。此外Groq还提供了编译平台和本地化硬件方案，不过并未介绍更多详情，想要了解的话需要与团队进行联系。而在第三方网站上，搭载Groq芯片的加速卡售价为2万多美元，差不多15万人民币。它由知名电子元件生产商莫仕（molex）旗下的BittWare代工，同时该厂也为英特尔和AMD代工加速卡。目前，Groq的官网正在招人。技术岗位年薪为10万-50万美元，非技术岗位则为9万-47万美元。“目标是三年超过英伟达”除此之外，这家公司还有个日常操作是叫板喊话各位大佬。当时GPTs商店推出之后，Groq就喊话奥特曼：用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满~马斯克也曾被它痛斥，说“剽窃”自己的名字。在最新讨论中，他们疑似又有了新操作。一名自称Groq工作人员的用户与网友互动时表示，Groq的目标是打造最快的大模型硬件，并扬言：三年时间内赶超英伟达。这下好了，黄院士的核武器有新的目标了。参考链接：[1] ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人