Whisper JAX:这是一个对OpenAI开源的Whisper模型网页链接 的优化版本,它针对GPU和TPU做了优化,性能提

Whisper JAX:这是一个对OpenAI开源的Whisper模型网页链接 的优化版本,它针对GPU和TPU做了优化,性能提升了70倍,最快1小时的音频15秒能完成转录! 提速的关键: 1. 批量处理 Transformers 实现了一种批处理算法,其中单个音频样本被分成 30 秒的片段,然后分批转录这些块。这种批处理算法比 OpenAI(按顺序转录块)提供高达 7 倍的增益 2. JAX优于PyTorch JAX 是一个用于高性能机器学习研究的自动微分库,通过即时 (JIT) 编译 Whisper,比PyTorch在 GPU 上获得了 2 倍的速度提升 3. TPUs 优于 GPUs 张量处理单元 (TPU) 是由 Google 设计的 ML 加速器, TPU 专为矩阵乘法而构建,与更通用的 GPU 相比具有显着优势。在 TPU v4-8 上运行 Whisper JAX 比在 NVIDIA A100 上快 5 倍! 全部加在一起:批处理 7 倍 JAX 2 倍 TPU 5 倍速度增益 => 整体速度提升 70 倍 | |

相关推荐

封面图片

:在单个GPU上(如16GB T4 GPU或24GB RTX3090游戏卡)运行像OPT-175B/GPT-3这样的大型语言模型

:在单个GPU上(如16GB T4 GPU或24GB RTX3090游戏卡)运行像OPT-175B/GPT-3这样的大型语言模型,比其他基于offloading的系统快100倍。 FlexGen 允许通过IO高效卸载、压缩和大有效批处理大小生成高吞吐量。

封面图片

Google公布下一代 TPU芯片“Trillium” 性能有望提升 4.7 倍

Google公布下一代 TPU芯片“Trillium” 性能有望提升 4.7 倍 宣布下一代 TPU 是 I/O 大会的传统,尽管这些芯片要到今年晚些时候才能推出。不过,皮查伊表示,新一代 TPU 到货后,每块芯片的计算性能将比第五代提升 4.7 倍。在一定程度上,Google是通过扩大芯片的矩阵乘法单元(MXU)和提高整体时钟速度来实现这一目标的。此外,Google还将 Trillium 芯片的内存带宽提高了一倍。更重要的是,Trillium 采用了第三代 SparseCore,Google将其描述为"处理高级排名和推荐工作负载中常见的超大嵌入的专用加速器",该公司认为,这将使 Trillium TPU 能够更快地训练模型,并以更低的延迟为模型提供服务。皮查伊还将新芯片描述为Google迄今为止"最节能"的 TPU,这一点在人工智能芯片需求持续成倍增长的情况下尤为重要。他说:"在过去六年中,行业对 ML 计算的需求增长了 100 万倍,大约每年增长 10 倍。如果不投资降低这些芯片的功耗需求,这种情况将难以为继。Google承诺,新的 TPU 比第五代芯片节能 67%。"Google的 TPU 最近往往有多种变体。到目前为止,Google还没有提供有关新芯片的更多细节,也没有说明在Google云中使用这些芯片的成本。今年早些时候,Google也宣布将成为首批提供英伟达(NVIDIA)下一代 Blackwell 处理器的云计算提供商。不过,这仍然意味着开发人员要等到 2025 年初才能使用这些芯片。皮查伊说:"我们将继续投资基础设施,为我们的人工智能进步提供动力,我们将继续开辟新天地。" ... PC版: 手机版:

封面图片

见鬼了,谷歌居然开源LLM模型了,Meta要慌了。

见鬼了,谷歌居然开源LLM模型了,Meta要慌了。 Gemma 采用了和Gemini一样技术的开源LLM,同时质量也比同规模的模型要强。 下面是一些要点: ◈ 两种尺寸的模型权重:Gemma 2B和Gemma 7B。每种尺寸都有预训练和指导调整的变体。 ◈ 一个生成式人工智能工具包,为使用Gemma创建更安全的人工智能应用提供指导和必要工具。 ◈ 通过原生Keras 3.0为所有主要框架(JAX、PyTorch和TensorFlow)提供推理和监督微调(SFT)的工具链。 ◈ 准备好的Colab和Kaggle笔记本,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT等流行工具的集成,使得开始使用Gemma变得非常容易。 ◈ 预先训练和经过调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署到Vertex AI和Google Kubernetes Engine(GKE)。 ◈ 跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。 ◈ 允许所有组织进行负责任的商业使用和分发,无论规模大小。 ◈未来还会发布Gemma更大模型变体。 了解更多:

封面图片

OpenAI 宣布在亚洲设立首个办事处并发布针对日语优化的 GPT-4 模型

OpenAI 宣布在亚洲设立首个办事处并发布针对日语优化的 GPT-4 模型 OpenAI 14日宣布,将在日本东京开设在亚洲的首个办事处并向亚洲扩张,还将开始提供针对日语优化的 GPT-4 定制模型。作为在亚洲的首个地点,选择了日本东京,这里在技术、服务文化和拥抱创新的社区方面处于世界领先地位。OpenAI 致力于与政府、当地企业和研究机构合作,开发满足日本独特需求的安全人工智能工具。长崎忠雄被任命为 OpenAI 日本总裁,领导 OpenAI 在日本的活动,深度融入日本社区并为之做出贡献。长崎将领导销售和业务开发,并建立一支负责对外关系、产品和服务规划、沟通和运营的团队。作为对日本长期承诺的第一步,将开始为日本公司提供专门针对日语优化的定制 GPT-4 模型。此定制模型提高了翻译和总结日语文本的性能和成本效率,运行速度比其前身快达3倍。该定制模型将在未来几个月内在 API 中广泛发布。

封面图片

Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功

Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功 访问:Saily - 使用eSIM实现手机全球数据漫游 安全可靠 源自NordVPN Llamafile 的目标是让用户和开发人员更容易获得人工智能 LLM,它支持从单个文件精简部署大型语言模型,这些模型既能在 CPU 和 GPU 上执行,也能跨平台运行。Llamafile 已经支持利用 AVX/AVX2 实现更快的性能,并支持 AVX-512 以实现更快的速度。在今天发布的 Llamafile 0.8.2 中,又增加了 AVX2 优化功能。Llamafile 0.8.2 发布说明中提到"此版本为 K-quants 和 IQ4_XS 引入了更快的 AVX2 提示处理。这是由 @ikawrakow 贡献给 llamafile 的,他在去年发明了K-quants:gerganov/llama.cpp@99009e7。在之前的版本中,我们推荐使用传统的Q4_0 quant,因为它最简单、最直观,可以与最近的 matmul 优化一起使用。多亏了 Iwan Kawrakow 的努力,现在(在现代 x86 系统上)最好的quants(如 Q5_K_M)将以最快的速度运行"。在过去几年中,英特尔和 AMD 处理器广泛支持高级矢量扩展 2(Advanced Vector Extensions 2):大多数英特尔 CPU 从 Haswell 开始支持高级矢量扩展 2,而 AMD 方面则从 Excavator CPU 开始支持高级矢量扩展 2。拉取请求指出,在更快的 AVX2 提示处理方面取得了一些令人振奋的成果。据报告,各种计算器具的速度都提高了 1.4 至 2.3 倍。大量参与 Llamafile 开发工作的 Justine Tunney 最初回应了拉取请求:"这是一个了不起的变化 @ikawrakow。我很高兴看到最好的量化格式现在能以最快的速度运行。在 x86-64 机器上,我一直看到提示处理的速度提高了 1.2-2.0 倍。你们甚至成功地使令牌生成速度更快(我发现这要困难得多),在某些情况下甚至提高了 1.33 倍!"对于 Llamafile 0.8.2 而言,这些针对提示处理的 AVX2 优化已经足够令人兴奋了。不过,0.8.2 版还带来了内存错误修复、文本生成的轻微性能优化、本周的 Llama.cpp 代码更新以及各种新标志。有关 Llamafile 0.8.2 版的下载和更多详情,请访问GitHub。针对新版本的新Llamafile 基准测试即将发布。 ... PC版: 手机版:

封面图片

马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI

马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI 有意思的是,Grok-1宣布开源的封面图为Midjourney生成,可谓“AI helps AI”。一直吐槽OpenAI不open的马斯克,自然要在社交平台上含沙射影一番,“我们想了解更多OpenAI的开放部分。”Grok-1遵照Apache 2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今,已经在GitHub上揽获6.5k星标,热度还在持续增加。项目说明中明确强调,由于Grok-1是一个规模较大(314B参数)的模型,需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。此外,该存储库中MoE层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说,发布开源模型有助于社区展开大规模的测试和反馈,意味着模型本身的迭代速度也能加快。Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程:在宣布成立xAI之后,相关研究人员首先训练了一个330亿参数的原型语言模型(Grok-0),这个模型在标准语言模型测试基准上接近LLaMA2(70B)的能力,但使用了更少的训练资源;之后,研究人员对模型的推理和编码能力进行了重大改进,最终开发出了Grok-1并于2023年11月发布,这是一款功能更为强大的SOTA语言模型,在HumanEval编码任务中达到了63.2%的成绩,在MMLU中达到了73%,超过了其计算类中的所有其他模型,包括ChatGPT-3.5和Inflection-1。与其他大模型相比,Grok-1的优势在哪呢?xAI特别强调,Grok-1是他们自己从头训练的大模型,即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练,没有针对特定任务(如对话)进行微调;Grok-1的一个独特而基本的优势是,它可以通过X平台实时了解世界,这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据;3140亿参数的Mixture-of-Experts模型,其对于每个token,活跃权重比例为25%,这一庞大的参数量为其提供了强大的语言理解和生成能力。xAI此前介绍,Grok-1将作为Grok背后的引擎,用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。未来,长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人