前不久,麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM能够在不牺牲推理速度和生成效果的前提下实现多

前不久,麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM能够在不牺牲推理速度和生成效果的前提下实现多轮对话总共 400 万个 token 的流式输入,22.2 倍的推理速度提升。 但 StreamingLLM 使用原生 PyTorch 实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。 因此,知名 AI 框架 Colossal-AI 开源了 ,基于 TensorRT 实现了 StreamingLLM,可以 进一步提升大模型推理性能 46%,为多轮对话推理提供了高效可靠的落地方案。

相关推荐

封面图片

《DeepSeek满血版》

《DeepSeek满血版》 简介:一款高性能智能助手,深度融合前沿AI技术,擅长多轮对话与复杂任务处理,具备强大的逻辑推理与多语言理解能力,可灵活应用于数据分析、创意生成等场景,响应速度与精准度行业领先。 亮点:采用混合模型架构平衡效率与效果,支持实时联网获取最新信息,提供个性化交互体验,隐私保护机制严格,适配多终端无缝切换。 标签:#人工智能 #智能助手 #多模态处理 #深度学习 #跨平台 更新日期:2025-05-30 14:23:17 链接:/url/

封面图片

AMIE是一个基于大语言模型(LLM)的研究型AI系统,用于医学诊断推理和对话。它通过真实世界的数据集进行训练,包括医学推理、医

AMIE是一个基于大语言模型(LLM)的研究型AI系统,用于医学诊断推理和对话。它通过真实世界的数据集进行训练,包括医学推理、医学总结和真实世界的临床对话。 AMIE使用了一种新的自弈仿真对话学习环境,可以在大量的疾病条件、专科和患者环境下提高诊断对话的质量。 研究人员设计了一项随机双盲交叉研究,使用经验证的患者角色扮演者通过在线多轮同步文本聊天与执业医生或AMIE系统进行虚拟远程客观结构化临床考试(OSCE)。 在149个不同科室的病例中,与20名初级保健医生相比,AMIE在诊断准确性和咨询质量的多个方面表现更好,从专科医生和患者角色的视角看是这样。 AMIE作为辅助工具可显著提高临床医生解决复杂病例的诊断准确率,但AMIE有一定局限性,这项研究应谨慎解释,不能代表日常临床实践。需要更多研究来实现安全可靠的AI系统。 临床专业知识仍然短缺,AMIE是探索AI系统与熟练临床医生相当属性的未来愿景的尝试,但还需要大量科学研究。

封面图片

《小爱同学 2.0.0.231.zip》

《小爱同学 2.0.0.231.zip》 简介:小米推出的智能语音助手升级版本,集成先进AI技术提升交互体验,支持语音指令控制智能设备、信息查询及生活服务。此次更新优化了响应速度和多轮对话能力,适配更多IoT产品。 亮点:强化自然语言理解模块,新增方言识别功能;深度融入米家生态链,可跨平台协同操作;界面设计更简洁,隐私保护机制升级。 标签: #智能语音助手#AI交互#小米生态#智能家居#多设备协同#隐私安全#版本更新 更新日期:2025-04-17 04:08:52 链接:

封面图片

科大讯飞:明日发布星火认知 AI 大模型 V1.5,同步上线配套 App

科大讯飞:明日发布星火认知 AI 大模型 V1.5,同步上线配套 App 科大讯飞发布公告,宣布该公司将在 6 月 9 日 14 点召开“讯飞星火认知大模型 V1.5 发布会”,会中将介绍 “讯飞星火认知大模型”的新进展,并发布配套“星火”App 及“星火助手中心”。 据介绍,“讯飞星火认知大模型”V1.5 开放式问答取得了一定突破,多轮对话和数学能力得到了升级,此外,模型的“文本生成”、“语言理解”、“逻辑推理能力”都得到了持续提升。 科大讯飞表示,星火认知大模型在学习、医疗、工业、办公等领域进一步的商业落地成果将在发布会中同时公布。同时,该公司还将推出星火 App,提升手机端交互体验。并推出星火助手中心,打造“覆盖工作及生活场景的快捷助手”,“开启人机协作共创的新生态”。 官方表示,从公司星火大模型内测到发布以来,获得市场认可,“中文已超越 ChatGPT”,在“国内大模型中遥遥领先”,同时其在应用方面,公司拥有教育、医疗、金融、汽车等行业数据积累,并有望通过 AI 模型接入提升项目或单品客单价。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

麻省理工学院研究人员开发出对图像质量影响最小的超快速图像生成方法

麻省理工学院研究人员开发出对图像质量影响最小的超快速图像生成方法 图像生成人工智能通常采用一种称为扩散的过程,通过几个采样步骤来完善视觉输出,以达到最终希望"逼真"的结果。研究人员表示,扩散模型可以生成高质量的图像,但需要数十次前向传递。Adobe 研究中心和麻省理工学院的专家们正在引入一种名为"分布匹配蒸馏"(DMD)的技术。这一程序将多步扩散模型简化为一步图像生成解决方案。由此产生的模型可以生成与Stable Diffusion 1.5 等"传统"扩散模型相当的图像,但速度要快上几个数量级。"我们的核心理念是训练两个扩散模型,不仅能估计目标真实分布的得分函数,还能估计假分布的得分函数。"研究人员称,他们的模型可以在现代 GPU 硬件上每秒生成 20 幅图像。上面的视频短片重点介绍了 DMD 与 Stable Diffusion 1.5 相比的图像生成能力。标清每幅图像需要 1.4 秒,而 DMD 只需几分之一秒就能生成类似的图像。虽然在质量和性能之间有所权衡,但最终结果仍在普通用户可接受的范围之内。该团队发表的关于新渲染方法的文章展示了使用 DMD 生成图像结果的更多示例。它比较了稳定扩散和 DMD,同时提供了生成图像的重要文字提示。主题包括通过虚拟数码单反相机镜头取景的一只狗、多洛米蒂山脉、森林中一只神奇的鹿、一只鹦鹉宝宝的 3D 渲染、独角兽、胡须、汽车、猫,甚至更多的狗。分布匹配蒸馏法并不是第一种用于生成人工智能图像的单步方法。Stability AI 公司开发了一种被称为逆向扩散蒸馏(ADD)的技术,用于实时生成 100 万像素的图像。该公司通过 ADD 训练其 SDXL Turbo 模型,在单个 NVIDIA A100 AI GPU 加速器上实现了仅 207 毫秒的图像生成速度。Stability 的 ADD 采用了与麻省理工学院的 DMD 类似的方法。 ... PC版: 手机版:

封面图片

Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU 人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如 GPT-4 和 Gemini,包含数十亿个参数,需要数千个 GPU 或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然 GPU 是训练阶段的理想选择,但模型通常在 CPU 上进行优化和推理。这意味着,有些客户出于各种原因选择 CPU 作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端 GPU 或专门的人工智能加速器相比,CPU 往往更便宜,也更容易获得。对于许多应用而言,CPU 能以较低的成本提供足够的推理性能。CPU 还具有灵活性。由于大多数系统已经配备了 CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU 通常需要专门的库和驱动程序,而基于 CPU 的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU 擅长大规模并行推理吞吐量。但 CPU 通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU 推理可能是首选。此外,CPU 对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔 AVX-512 和 AMX 等新指令的推动下,性能不断提高,仅靠 CPU 就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200 亿的模型在 CPU 上可以正常运行,而更大的模型则必须使用专门的加速器。像 GPT-4、Claude 和 Gemini 这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行 GPT-4 这样的模型就显得多余了。相比之下,像LLAMA 2或 Mistral 这样小得多的模型可以很好地实现类似目的,而不需要第三方 API 访问,只需在本地或云服务器上运行几个 CPU 即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人