libLLM: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。

:专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。核心使用C++14编写，没有第三方依赖（BLAS、SentencePiece等），能在各种设备中无缝运行。特点为日常设备进行优化：libLLM经过优化，可在常见的个人电脑上平稳运行，确保大型语言模型的强大功能面向更广泛的用户。C++代码：采用标准C++14编写，简单高效。无外部依赖：核心功能无需第三方依赖（BLAS、SentencePiece等），所需的GEMM内核均在内部实现(avx2、avx512)。支持CUDA：支持使用CUDA加速推理。

在Telegram中查看

相关推荐

Inferflow：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Transformer模型提供服务。主要特点可扩展且高度可配置：使用Inferflow服务新模型的典型方法是编辑模型规范文件，但不添加/编辑源代码。我们在Inferflow中实现了原子构建块和技术的模块化框架，使其在组合上可推广到新模型。如果该模型中的原子构建块和技术（对于Inferflow）“已知”，则Inferflow可以为该新模型提供服务。3.5位量化：Inferflow实现2位、3位、3.5位、4位、5位、6位和8位量化。在量化方案中，3.5位量化是Inferflow推出的新方案。多GPU推理的混合模型分区：Inferflow支持多GPU推理，具有三种模型分区策略可供选择：按层分区（管道并行）、按张量分区（张量并行）和混合分区（混合并行））。其他推理引擎很少支持混合分区。宽文件格式支持（并安全加载pickle数据）：Inferflow支持直接加载多种文件格式的模型，而不依赖于外部转换器。支持的格式包括pickle、safetensors、llama.cppgguf等。众所周知，使用Python代码读取pickle文件存在安全问题。通过在C++中实现简化的pickle解析器，Inferflow支持从pickle数据安全地加载模型。广泛的网络类型支持：支持三种类型的变压器模型：仅解码器模型、仅编码器模型和编码器-解码器模型。GPU/CPU混合推理：支持仅GPU、仅CPU、GPU/CPU混合推理。

Poly：用Rust编写的GPU加速语言模型(LLM)服务器，可高效提供多个本地LLM模型的服务。

：用Rust编写的GPU加速语言模型(LLM)服务器，可高效提供多个本地LLM模型的服务。主要提供：为多个本地LLM模型提供高性能、高效和可靠的服务可选择通过CUDA或Metal进行GPU加速可配置的LLM完成任务（提示、召回、停止令牌等）通过HTTPSSE流式传输完成响应，使用WebSockets聊天使用JSON模式对完成输出进行有偏差的采样使用向量数据库（内置文件或Qdrant等外部数据库）进行记忆检索接受PDF和DOCX文件并自动将其分块存储到内存中使用静态API密钥或JWT标记确保API安全简单、单一的二进制+配置文件服务器部署，可水平扩展附加功能：用于轻松测试和微调配置的Web客户端用于本地运行模型的单二进制跨平台桌面客户端

Google：引领AI推理工作量的是CPU而非GPU

Google：引领AI推理工作量的是CPU而非GPU人工智能的生命周期分为两个部分：训练和推理。在训练过程中，需要大量的计算能力和巨大的内存容量，以便将不断扩大的人工智能模型装入内存。最新的模型，如GPT-4和Gemini，包含数十亿个参数，需要数千个GPU或其他加速器并行工作，才能高效地进行训练。另一方面，推理所需的计算强度较低，但仍能从加速中获益。在推理过程中，会对预先训练好的模型进行优化和部署，以便对新数据进行预测。虽然推理所需的计算量比训练少，但延迟和吞吐量对实时推理至关重要。Google发现，虽然GPU是训练阶段的理想选择，但模型通常在CPU上进行优化和推理。这意味着，有些客户出于各种原因选择CPU作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端GPU或专门的人工智能加速器相比，CPU往往更便宜，也更容易获得。对于许多应用而言，CPU能以较低的成本提供足够的推理性能。CPU还具有灵活性。由于大多数系统已经配备了CPU，它们为较小的人工智能模型提供了便捷的部署途径。GPU通常需要专门的库和驱动程序，而基于CPU的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU擅长大规模并行推理吞吐量。但CPU通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用，CPU推理可能是首选。此外，CPU对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔AVX-512和AMX等新指令的推动下，性能不断提高，仅靠CPU就能流畅运行人工智能工作负载，如果服务器配置了不止一个插槽，意味着有更多的人工智能引擎存在，服务器就能高效处理数十亿参数大小的人工智能模型，则性能尤其出色。英特尔指出，一般来说，参数不超过200亿的模型在CPU上可以正常运行，而更大的模型则必须使用专门的加速器。像GPT-4、Claude和Gemini这样的人工智能模型都是庞大的模型，参数规模可达一万亿以上。然而，它们是多模式的，也就是说，它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档，以回答客户支持问题。对于这种解决方案来说，运行GPT-4这样的模型就显得多余了。相比之下，像LLAMA2或Mistral这样小得多的模型可以很好地实现类似目的，而不需要第三方API访问，只需在本地或云服务器上运行几个CPU即可。这就降低了总体拥有成本（TCO），简化了人工智能管道。...PC版：https://www.cnbeta.com.tw/articles/soft/1422284.htm手机版：https://m.cnbeta.com.tw/view/1422284.htm

Chromium项目将支持Rust编程语言

Chromium项目将支持Rust编程语言Rust是由Mozilla赞助和支持的，作为建立一个新的、更安全和性能更好的网络浏览器的方法。现在，Google将很快开始在自己的Chromium项目中使用这种语言，这意味着山景城似乎正在为无处不在的Chrome浏览器准备一个更安全的未来。Chrome安全团队成员DanaJansens通过Google的安全博客宣布了这一新进展。在未来，Chromium项目将支持用Rust编写的库。开发人员已经在开发一个生产型Rust工具链，以添加到Chrome构建系统中，这应该在"明年"将实际的Rust代码带到Chrome二进制文件中。Rust是一种现代的、通用的编程语言，为几种类型的编译应用程序提供了原生性能--从传统的计算机软件到低资源和嵌入式设备。此外，Rust旨在从一开始就提供内存安全，在编译时就消除了许多类错误和潜在的漏洞。Google感谢Mozilla"对系统软件行业的巨大贡献"，尽管Chrome和Firefox是两个相互竞争的浏览器，但如果没有Google提供的资金，Mozilla基金会基本上就不存在了。"Rust已经是一个令人难以置信的事实，证明我们应该能够期望一种语言在提供安全的同时还能有良好的性能，"Jansens写道。由于Rust和C++是两种诞生于不同设计的编程语言，Chromium中的Rust集成目前只能通过第三方库来实现。这两种语言之间的互操作性也可能是一个问题，所以Google的开发人员在让这两种代码类型相互交流时需要格外谨慎。尽管这样，以及在像Chromium布局引擎这样的巨大项目中使用两种不同的编程语言的负担，Rust在使Chrome浏览器更加安全方面可能是一个巨大的帮助，因为内存安全缺陷，也就是Rust编程旨在消除的问题占Chromium中发现的最糟糕的安全漏洞的70%。"内存不安全是一个全行业的问题，利用Rust是在这一领域推进的战略的一部分。"Jansens说。当然，Google也在努力提高C++代码的安全性，因为这种有38年历史的语言仍然被用来编写Chrome代码中的数百万行。...PC版：https://www.cnbeta.com.tw/articles/soft/1339127.htm手机版：https://m.cnbeta.com.tw/view/1339127.htm

微软发布Copilot智能体还带来了本机小语言模型

微软发布Copilot智能体还带来了本机小语言模型此外，微软还针对Copilot+PC推出了本机小语言模型Phi-Silica。微软宣布，从6月份开始上市销售的所有Copilot+PC都将嵌入Phi-Silica。这是一款微软专门为人工智能个人电脑所搭载神经处理单元（NPU）打造的模型，是公司所有模型中规模最小的，有33亿个参数。微软宣称，Copilot智能体并不会袖手旁观，等待命令，而是可以主动执行诸如监控电子邮件收件箱、自动化手动数据录入等任务。这代表了行业中所称的AI智能体在行为上的重大变革，也就是使聊天机器人能够独立智能地执行复杂任务。这是业界通常所说智能主体方面的一个重大变化，也就是让聊天机器人能自动执行一系列复杂任务。微软商业应用和平台副总裁查尔斯·拉曼纳(CharlesLamanna)在接受采访时解释：“我们很快意识到，仅限于用Copilot进行对话，极大地限制了它目前的功能。”“与其让Copilot等着别人和它聊天，不如让它更主动，让它能够在后台自动执行任务。”微软今天向极少数早期接入测试者展示了这一新能力，并计划在今年晚些时候在CopilotStudio公开进行预览。企业将能够创建能够处理IT支持、员工入职等多种任务的Copilot智能体。“Copilot正从与你并肩作战的助手，演变为为你工作的助手，”微软在一篇博客中说。这些Copilot智能体将由特定事件触发，并将结合企业自身的数据进行操作。以下是微软以新员工入职举例说明Copilot如何工作：想象你是一名新员工。一个积极主动的Copilot会向你打招呼，利用HR数据解答你的问题，把你介绍给同事，为你提供培训信息，帮助你填写表格，安排你第一周的会议。这样，HR及其他员工便可专注于他们的常规任务，无需再被行政管理工作所困扰。这种自动化可能会引发关于失业以及AI未来走向的问题和恐惧。拉曼纳认为，Copilot智能体可以去除工作中重复且单调的任务，如数据输入，而非完全替代工作。“工作和岗位是由许多不同而又多样的任务组成的。如果某人不断重复同一工作，那么这种工作很可能已经被现有技术自动化了。”拉曼纳说，“我们认为，随着Copilot和CopilotStudio的使用，一些任务将被完全自动化……但好消息是，大多数被自动化的任务都是没人真正想做的。”关于小型语言模型Phi-Silica，微软表示这款模型的首字延迟是每秒650个token，功耗大约为1.5瓦特。这意味着它不会大量占用系统资源，从而释放PC的CPU和GPU去处理其他计算任务。此外，Phi-Silica在生成Token时会重用NPU的KV缓存，并在CPU上运行，每秒能产生约27个Token。微软发言人表示，Phi-Silica的独特之处在于这是Windows首个本地部署的语言模型。它专为NPU优化，能够为设备带来极速的本地推理处理。这是一个关键时刻，标志着先进的AI技术将直接应用于Windows平台，支持第三方开发者创建卓越的第一方和第三方体验。这些体验将于今年秋季推向终端用户，从而提升Windows生态系统内的生产力和可访问性。Phi-Silica是微软Phi-3系列模型的第五款产品，其他四款产品是拥有38亿个参数的Phi-3mini、70亿个参数的Phi-3small、140亿个参数的Phi-3medium和42亿个参数的Phi-3vision。（辰辰）...PC版：https://www.cnbeta.com.tw/articles/soft/1431851.htm手机版：https://m.cnbeta.com.tw/view/1431851.htm

🔍 发送关键词来寻找群组、频道或视频。