Whisper JAX:这是一个对OpenAI开源的Whisper模型网页链接 的优化版本,它针对GPU和TPU做了优化,性能提

Whisper JAX:这是一个对OpenAI开源的Whisper模型网页链接 的优化版本,它针对GPU和TPU做了优化,性能提升了70倍,最快1小时的音频15秒能完成转录! 提速的关键: 1. 批量处理 Transformers 实现了一种批处理算法,其中单个音频样本被分成 30 秒的片段,然后分批转录这些块。这种批处理算法比 OpenAI(按顺序转录块)提供高达 7 倍的增益 2. JAX优于PyTorch JAX 是一个用于高性能机器学习研究的自动微分库,通过即时 (JIT) 编译 Whisper,比PyTorch在 GPU 上获得了 2 倍的速度提升 3. TPUs 优于 GPUs 张量处理单元 (TPU) 是由 Google 设计的 ML 加速器, TPU 专为矩阵乘法而构建,与更通用的 GPU 相比具有显着优势。在 TPU v4-8 上运行 Whisper JAX 比在 NVIDIA A100 上快 5 倍! 全部加在一起:批处理 7 倍 JAX 2 倍 TPU 5 倍速度增益 => 整体速度提升 70 倍 | |

相关推荐

封面图片

:在单个GPU上(如16GB T4 GPU或24GB RTX3090游戏卡)运行像OPT-175B/GPT-3这样的大型语言模型

:在单个GPU上(如16GB T4 GPU或24GB RTX3090游戏卡)运行像OPT-175B/GPT-3这样的大型语言模型,比其他基于offloading的系统快100倍。 FlexGen 允许通过IO高效卸载、压缩和大有效批处理大小生成高吞吐量。

封面图片

见鬼了,谷歌居然开源LLM模型了,Meta要慌了。

见鬼了,谷歌居然开源LLM模型了,Meta要慌了。 Gemma 采用了和Gemini一样技术的开源LLM,同时质量也比同规模的模型要强。 下面是一些要点: ◈ 两种尺寸的模型权重:Gemma 2B和Gemma 7B。每种尺寸都有预训练和指导调整的变体。 ◈ 一个生成式人工智能工具包,为使用Gemma创建更安全的人工智能应用提供指导和必要工具。 ◈ 通过原生Keras 3.0为所有主要框架(JAX、PyTorch和TensorFlow)提供推理和监督微调(SFT)的工具链。 ◈ 准备好的Colab和Kaggle笔记本,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT等流行工具的集成,使得开始使用Gemma变得非常容易。 ◈ 预先训练和经过调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署到Vertex AI和Google Kubernetes Engine(GKE)。 ◈ 跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。 ◈ 允许所有组织进行负责任的商业使用和分发,无论规模大小。 ◈未来还会发布Gemma更大模型变体。 了解更多:

封面图片

这是一款轻量级、先进的开源模型,供开发者和研究人员用于 AI 构建。Gemma 模型家族包括 Gemma 2B 和 Gemma

这是一款轻量级、先进的开源模型,供开发者和研究人员用于 AI 构建。Gemma 模型家族包括 Gemma 2B 和 Gemma 7B 两种尺寸, 能够在不同的设备类型上运行,包括笔记本电脑、桌面电脑、IoT 设备、移动设备和云端。性能和设计 Gemma 模型在技术和基础设施组件上与 Gemini 共享,这使得 Gemma 2B 和 7B 在其大小范围内相比其他开放模型具有最佳性能。 Gemma 模型不仅可以直接在开发者的笔记本电脑或桌面电脑上运行,而且在关键基准测试中的表现超过了更大的模型,同时遵循严格的安全和负责任输出标准。 主要特点: 1、轻量级、高性能模型:Gemma 模型家族包括 Gemma 2B 和 Gemma 7B.两种尺寸,提供预训练和指令调优的变体,针对其大小范围内相比其他开放模型具有最佳性能。 2、跨框架工具链支持:支持 JAX、PyTorch 和 TensorFlow 通过原生 Keras 3.0.进行推理和监督式微调(SFT),适应多种开发需求和环境。 3、易于入门和集成:提供准备就绪的 Colab 和 Kaggle 笔记本,以及与 Hugging Face、MaxText、NVIDIA NeMo.和 TensorRT-LLM 等流行工具的集成,方便开发者快速上手。 4.高效的运算能力:针对多个 AI 硬件平台上进行优化,确保在 NVIDIA GPU 和 Google Cloud TPU 上的行业领先性能。通过与 NVIDIA 的合作,无论是在数据中心、云端还是本地 RTX AI PC 上,都确保了行业领先的性能和与尖端技术的集成。 Gemma 模型能够在不同的设备类型上运行,这种广泛的兼容性使得模型能够适应各种应用场景和需求。 Hugging Face 测试链接: via 匿名 标签: #Google #Gemma 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI

马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI 有意思的是,Grok-1宣布开源的封面图为Midjourney生成,可谓“AI helps AI”。一直吐槽OpenAI不open的马斯克,自然要在社交平台上含沙射影一番,“我们想了解更多OpenAI的开放部分。”Grok-1遵照Apache 2.0协议开放模型权重和架构。这意味着它允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。这种开放性鼓励了更广泛的研究和应用开发。项目发布至今,已经在GitHub上揽获6.5k星标,热度还在持续增加。项目说明中明确强调,由于Grok-1是一个规模较大(314B参数)的模型,需要有足够GPU内存的机器才能使用示例代码测试模型。网友表示这可能需要一台拥有628 GB GPU内存的机器。此外,该存储库中MoE层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。目前已开源的热门大模型包括Meta的Llama2、法国的Mistral等。通常来说,发布开源模型有助于社区展开大规模的测试和反馈,意味着模型本身的迭代速度也能加快。Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,由马斯克旗下的AI创企xAI在过去4个月里开发。回顾该模型的开发历程:在宣布成立xAI之后,相关研究人员首先训练了一个330亿参数的原型语言模型(Grok-0),这个模型在标准语言模型测试基准上接近LLaMA2(70B)的能力,但使用了更少的训练资源;之后,研究人员对模型的推理和编码能力进行了重大改进,最终开发出了Grok-1并于2023年11月发布,这是一款功能更为强大的SOTA语言模型,在HumanEval编码任务中达到了63.2%的成绩,在MMLU中达到了73%,超过了其计算类中的所有其他模型,包括ChatGPT-3.5和Inflection-1。与其他大模型相比,Grok-1的优势在哪呢?xAI特别强调,Grok-1是他们自己从头训练的大模型,即从2023年10月开始使用自定义训练堆栈在JAX和Rust上训练,没有针对特定任务(如对话)进行微调;Grok-1的一个独特而基本的优势是,它可以通过X平台实时了解世界,这使得它能够回答被大多数其他AI系统拒绝的辛辣问题。Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据;3140亿参数的Mixture-of-Experts模型,其对于每个token,活跃权重比例为25%,这一庞大的参数量为其提供了强大的语言理解和生成能力。xAI此前介绍,Grok-1将作为Grok背后的引擎,用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。未来,长上下文的理解与检索、多模态能力都是该模型将会探索的方向之一。 ... PC版: 手机版:

封面图片

谷歌TPU人马打造最快推理芯片 喊话奥特曼:你们也太慢了

谷歌TPU人马打造最快推理芯片 喊话奥特曼:你们也太慢了 (这里面还有个熟悉的身影:Lepton)网友表示:这速度简直就是飞机vs走路。值得一提的是,这并非哪家大公司进展初创公司Groq,GoogleTPU团队原班人马,基于自研芯片推出推理加速方案。(注意不是马斯克的Grok)据他们介绍,其推理速度相较于英伟达GPU提高了10倍,成本却降低到十分之一。换言之,任何一个大模型都可以部署实现。目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型,并且可直接体验Demo。他们还在官网上喊话奥特曼:你们推出的东西太慢了……每秒接近500tokens既然如此,那就来体验一下这个号称“史上最快推理”的Groq。先声明:不比较生成质量。就像它自己说的那样,内容概不负责。目前,演示界面上有两种模型可以选择。就选择Mixtral 8x7B-32k和GPT-4同擂台对比一下。提示词:你是一个小学生,还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。结果啪的一下,只需1.76秒就生成了一长串读后感,速度在每秒478Tokens。不过内容是英文的,以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……至于GPT-4这边的表现,内容质量自然更好,也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成,也有近二十秒钟的时间。除了Demo演示外,Groq现在支持API访问,并且完全兼容,可直接从OpenAI的API进行简单切换。可以免费试用10天,这期间可以免费获得100万Tokens。目前支持Llama 2-70B 和7B, Groq可以实现4096的上下文长度,还有Mixtral 8x7B这一型号。当然也不局限于这些型号,Groq支持具体需求具体定制。价格方面,他们保证:一定低于市面上同等价格。不过可以看到,每秒500tokens似乎还不是终极速度,他们最快可以实现每秒750Tokens。GoogleTPU团队创业项目Groq是集软硬件服务于一体的大模型推理加速方案,成立于2016年,创始团队中很多都是GoogleTPU的原班人马。公司领导层的10人中,有5人都曾有Google的工作经历,3人曾在英特尔工作。创始人兼CEO Jonathan Ross,设计并实现了第一代TPU芯片的核心元件,TPU的研发工作中有20%都由他完成。Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。LPU的核心奥义是克服两个LLM瓶颈计算密度和内存带宽,最终实现的LLM推理性能比其他基于云平台厂商快18倍。据此前他们介绍,英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens,而 Groq 设置每个tokens大约需要1焦耳到3焦耳。因此,推理速度提高了10倍,成本却降低了十分之一,或者说性价比提高了100倍。延迟方面,在运行70B模型时,输出第一个token时的延时仅有0.22秒。甚至为了适应Groq的性能水平,第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。据介绍,Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。Groq主要基于该公司自研的TSP架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习工作负载固有的并行性对推理进行加速。在运算处理的同时,每个TSP都还具有网络交换的功能,可直接通过网络与其他TSP交换信息,无需依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。结合新设计的Dragonfly网络拓扑,hop数减少、通信延迟降低,使得传输效率进一步提高;同时软件调度网络带来了精确的流量控制和路径规划,从而提高了系统的整体性能。Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理,暂不支持模型训练。此外Groq还提供了编译平台和本地化硬件方案,不过并未介绍更多详情,想要了解的话需要与团队进行联系。而在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万人民币。它由知名电子元件生产商莫仕(molex)旗下的BittWare代工,同时该厂也为英特尔和AMD代工加速卡。目前,Groq的官网正在招人。技术岗位年薪为10万-50万美元,非技术岗位则为9万-47万美元。“目标是三年超过英伟达”除此之外,这家公司还有个日常操作是叫板喊话各位大佬。当时GPTs商店推出之后,Groq就喊话奥特曼:用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满~马斯克也曾被它痛斥,说“剽窃”自己的名字。在最新讨论中,他们疑似又有了新操作。一名自称Groq工作人员的用户与网友互动时表示,Groq的目标是打造最快的大模型硬件,并扬言:三年时间内赶超英伟达。这下好了,黄院士的核武器有新的目标了。参考链接:[1] ... PC版: 手机版:

封面图片

最强开源大模型一夜易主:谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战

最强开源大模型一夜易主:谷歌Gemma 7B碾压Llama 2 13B 重燃开源之战 与此同时,谷歌还放出了16页的技术报告。谷歌表示,Gemma这个名字源自拉丁语「gemma」,也就是「宝石」的意思,似乎是在象征着它的珍贵性。历史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode,都是谷歌为开源社区贡献的创新。而谷歌今天在全球范围内同步推出的Gemma,必然会再一次掀起构建开源AI的热潮。同时也坐实了OpenAI「唯一ClosedAI」的名头。OpenAI最近刚因为Sora火到爆,Llame据称也要有大动作,谷歌这就又抢先一步。硅谷大厂,已经卷翻天了!Hugging Face CEO也跟帖祝贺。还贴出了Gemma登上Hugging Face热榜的截图。Keras作者François Chollet直言:最强开源大模型,今日易主了。有网友已经亲自试用过,表示Gemma 7B真是速度飞快。谷歌简直是用Gemini拳打GPT-4,用Gemma脚踢Llama 2!网友们也是看热闹不嫌事大,召唤Mistral AI和OpenAI今晚赶快来点大动作,别让谷歌真的抢了头条。(手动狗头)可以看到,Gemma-7B模型在涵盖一般语言理解、推理、数学和编码的8项基准测试中,性能已经超越了Llama 2 7B和13B!并且,它也超越了Mistral 7B模型的性能,尤其是在数学、科学和编码相关任务中。在安全性方面,经过指令微调的Gemma-2B IT和 Gemma-7B IT模型,在人类偏好评估中都超过了Mistal-7B v0.2模型。特别是Gemma-7B IT模型,它在理解和执行具体指令方面,表现得更加出色。这次,除了模型本身,谷歌还提供了一套工具帮助开发者,确保Gemma模型负责任的使用,帮助开发者用Gemma构建更安全的AI应用程序。- 谷歌为JAX、PyTorch和TensorFlow提供了完整的工具链,支持模型推理和监督式微调(SFT),并且完全兼容最新的Keras 3.0。- 通过预置的Colab和Kaggle notebooks,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成,用户可以轻松开始探索Gemma。- Gemma模型既可以在个人笔记本电脑和工作站上运行,也可以在Google Cloud上部署,支持在Vertex AI和Google Kubernetes Engine (GKE) 上的简易部署。- 谷歌还对Gemma进行了跨平台优化,确保了它在NVIDIA GPU和Google Cloud TPU等多种AI硬件上的卓越性能。并且,使用条款为所有组织提供了负责任的商业使用和分发权限,不受组织规模的限制。不过,Gemma并没有能够在所有的榜单中,都拿下SOTA。在官方放出的评测中,Gemma 7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中,成功击败了Llama 2 7B和13B模型。相比之下,Gemma 7B在Boolq测试中,只与Mistral 7B打了个平手。而在PIQA、ARC-c、Winogrande和BBH中,则不敌Mistral 7B。在OBQA和trivalent QA中,更是同时被7B和13B规模的Llama 2 7B斩于马下。谷歌这次发布的两个版本的Gemma模型,70 亿参数的模型用于GPU和TPU上的高效部署和开发,20亿参数的模型用于CPU和端侧应用程序。在18个基于文本的任务中的11个中,Gemma都优于相似参数规模的开源模型,例如问答、常识推理、数学和科学、编码等任务。模型架构方面,Gemma在Transformer的基础上进行了几项改进,从而在处理复杂任务时能够展现出更加出色的性能和效率。- 多查询注意力机制其中,7B模型采用了多头注意力机制,而2B模型则使用了多查询注意力机制。结果显示,这些特定的注意力机制能够在不同的模型规模上提升性能。- RoPE嵌入与传统的绝对位置嵌入不同,模型在每一层都使用了旋转位置嵌入技术,并且在模型的输入和输出之间共享嵌入,这样做可以有效减少模型的大小。- GeGLU激活函数将标准的ReLU激活函数替换成GeGLU激活函数,可以提升模型的表现。- 归一化化位置(Normalizer Location)每个Transformer子层的输入和输出都进行了归一化处理。这里采用的是RMSNorm作为归一化层,以确保模型的稳定性和效率。架构的核心参数如下:两种规模的参数如下:Gemma 2B和7B分别针对来自网络文档、数学和代码的主要英语数据的2T和6Ttoken,进行了训练。与Gemini不同,这些模型不是多模态的,也没有针对多语言任务的SOTA进行训练。谷歌使用了Gemini的SentencePiece分词器的子集,来实现兼容性。团队对Gemma 2B和7B模型进行了微调,包括有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)。在有监督的微调阶段,研究者使用了一个由纯文本、英文、由人工和机器生成的问题-答案对组成的数据集。在强化学习阶段,则是使用了一个基于英文偏好数据训练出的奖励模型,以及一套精心挑选的高质量提示作为策略。研究者发现,这两个阶段对于提升模型在自动评估和人类偏好评估中的表现,至关重要。研究者根据基于LM的并行评估,选择了数据混合物进行监督微调。给定一组保留prompt,研究者会从测试模型中生成响应,从基准模型中生成对相同提示的响应,随机洗牌,然后要求一个更大、能力更强的模型在两种响应之间表达偏好。研究者构建了不同的提示集,以突出特定的能力,如遵循指令、实事求是、创造性和安全性。我们使用了不同的基于LM的自动评委,采用了一系列技术,如思维链提示、使用评分标准和章程等,以便与人类偏好保持一致。研究者进一步利用来自人类反馈的强化学习(RLHF),对已经进行过有监督微调的模型进行了优化。他们从人类评估者那里收集他们的偏好选择,并在 Bradley-Terry 模型的基础上,训练了一个奖励函数,这与Gemini项目的做法相似。研究者采用了一个改进版的REINFORCE算法,加入了 Kullback–Leibler 正则化项,目的是让策略优化这个奖励函数,同时保持与最初调整模型的一致性。与之前的有监督微调阶段相似,为了调整超参数并进一步防止奖励机制被滥用,研究者使用了一个高性能模型作为自动评估工具,并将其与基准模型进行了直接对比。谷歌在多个领域对Gemma进行了性能评估,包括物理和社会推理、问答、编程、数学、常识推理、语言建模、阅读理解等。Gemma2B和7B模型与一系列学术基准测试中的多个外部开源大语言模型进行了比较。在MMLU基准测试中,Gemma 7B模型不仅超过了所有规模相同或更小的开源模型,还超过了一些更大的模型,包括Llama 2 13B。然而,基准测试的制定者评估人类专家的表现为89.8%,而Gemini Ultra是首个超越此标准的模型,这表明Gemma在达到Gemini和人类水平的性能上,还有很大的提升空间。并且,Gemma模型在数学和编程的基准测试中表现尤为突出。在通常用于评估模型分析能力的数学任务中,Gemma 模型在GSM8K和更具挑战性的 MATH基准测试上至少领先其他模型10分。同样,在HumanEval上,它们至少领先其他开源模型6分。Gemma甚至在MBPP上超过了专门进行代码微调的CodeLLaMA 7B模型的性能(CodeLLaMA得分为41.4%,而 Gemma 7B得分为44.4%)。近期研究发现,即便是经过精心对齐的人工智能模型,也可能遭受新型对抗攻击,这种攻击能够规避现有的对齐措施。这类攻击有可能使模型行为异常,有时甚至会导致模型重复输出它在训练过程中记住的数据。因此,研究者专注于研究模型的「可检测记忆」能力,这被认为是评估模型记忆能力的一个上限,并已在多项研究中作为通用定义。研究者对Gemma预训练模型进行了记忆测试。具体来说,他们从每个数据集中随机选择了10,000篇文档,并使用文档开头的50个词元作为模型的prompt。测试重点是精确记忆,即如果模型能够基于输入,精确地生成接下来的50token,与原文完全一致,便认为模型「记住了」这段文本。此外,为了探测模型是否能够以改写的形式记忆信息,研究者还测试了模型的「近似记忆」能力,即允许在生成的文本和原文之间存... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人