《大模型基础》简介:本书系统介绍大模型的核心原理、技术架构与应用场景,涵盖从基础理论到实践落地的完整知识体系,适合AI从业者与研

《大模型基础》 简介:本书系统介绍大模型的核心原理、技术架构与应用场景,涵盖从基础理论到实践落地的完整知识体系,适合AI从业者与研究者快速掌握前沿技术动态。 亮点:深入浅出解析Transformer架构,结合行业案例与开源工具,提供可复现的实战代码与调优技巧。 标签:#深度学习 #自然语言处理 #Transformer实战 #大模型基础 #AI技术手册 更新日期:2025-04-28 07:18:17 链接:https://pan.quark.cn/s/9631ec06a2dd

相关推荐

封面图片

AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型 以色列人工智能初创公司 AI21 Labs 在近日宣布推出开源大语言模型 Jamba,这是世界上首个基于 Mamba 架构的生产级人工智能模型。而目前大多数模型都基于 Transformer 架构。Jamba 将 Mamba 的结构化状态空间模型 (SSM) 和传统 Transformer 架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba 拥有高达 256k 上下文窗口,同时在单个 80GB GPU 上可容纳最多 140K 个 tokens。其混合结构使 Jamba 的 MoE 层允许它在推理时仅使用52B可用参数中的12B参数。 、

封面图片

《基于AI芯片的神经网络优化实战》

《基于AI芯片的神经网络优化实战》 简介:本书探讨如何利用专用AI芯片提升神经网络模型的运行效率与性能,结合硬件架构特性与算法优化策略。通过实际案例演示模型压缩、量化加速及跨平台部署等技术,助力开发者在边缘计算、自动驾驶等场景实现低功耗、高实时性的智能应用。 亮点:深入解析AI芯片与算法的协同优化方法,提供从理论到工程落地的全流程指导,包含产业级案例和可复现实验,涵盖低精度计算、动态推理等前沿技术,强化真实场景部署能力。 标签:#AI芯片 #神经网络优化 #实战应用 #模型压缩 #边缘计算 #基于AI芯片的神经网络优化实战 链接:https://pan.quark.cn/s/76d6585705ef

封面图片

大型语言模型基础知识可视化学习指南 ||| #指南 #可视化

大型语言模型基础知识可视化学习指南 ||| #指南 #可视化 本文收集了一系列工具和文章,通过直观的可视化方式解释大型语言模型(LLM)的基础概念。 Jay Alammar的《图解Transformer》以生动的可视化说明了Transformer架构的工作原理。由于Transformer是所有语言模型的基石,理解它的基础尤为重要。《图解GPT-2》直观地展示了GPT-2的内部结构,如注意力机制等,有助于理解LLM的组成部分。 Brendan Bycroft的LLM可视化工具允许直观地探索不同LLM内部状态的变化。 Financial Times的文章解释了Transformer的重要性,以及它如何促成了生成式AI的发展。 OpenAI的Tokenizer工具演示了Tokenizer在文本处理中的作用。 Simon Wilson的文章深入解释了GPT Tokenizer的工作原理。 Greg Kamradt的Chunkviz工具展示了文本是如何被LLM处理成“块”的。 PAIR的“机器学习模型记忆还是泛化?”交互式介绍了两种学习方式及其对LLM的影响。 这些资源从多个维度直观地说明了LLM的核心概念和机制,有助于科技从业者和爱好者更好地理解LLM技术的本质。

封面图片

大模型微调实战营-应用篇 - 带源码课件

大模型微调实战营-应用篇 - 带源码课件 描述:本课程包括大模型基础,大模型指令微调,常用的开源模型微调,大模型对齐,垂直领域大模型应用5个阶段,内容涵盖大模型微调应用场景,大模型基座,LoRA参数微调,模型压缩,QLoRA参数微调,DeepSpeed训练框架解析,Megatron-LM训练框架解析,Flash Attention技术应用,微调模型Benchmark,ChatGLM,LLaMA,Mistral,MoE,大模型对齐,RLHF,DPO,垂直领域大模型应用等前沿技术等全方位知识讲解,并结合8个实战项目,帮助同学们实现学以致用。 链接: 大小:NG 标签:#学习 #知识 #课程 #资源 来自:雷锋 频道:@Aliyundrive_Share_Channel 群组:@alyd_g 投稿:@AliYunPanBot

封面图片

,主要为本科生高年级、硕博研究生、AI系统从业者设计。

,主要为本科生高年级、硕博研究生、AI系统从业者设计。 这个开源项目英文名字叫做 Deep Learning System 或者 AI System(AISys),中文名字叫做 深度学习系统 或者 AI系统。 本开源项目主要是探讨和学习人工智能、深度学习的系统设计,而整个系统是围绕着 ZOMI 在工作当中所积累、梳理、构建 AI 系统全栈的内容。 课程主要包括以下五大模块: 第一部分,AI基础知识和AI系统的全栈概述的AI系统概述,以及深度学习系统的系统性设计和方法论,主要是整体了解AI训练和推理全栈的体系结构内容。 第二部分,硬核篇介绍AI芯片,这里就很硬核了,从芯片基础到AI芯片的范围都会涉及,芯片设计需要考虑上面AI框架的前端、后端编译,而不是停留在天天喊着吊打英伟达,被现实打趴。 第三部分,进阶篇介绍AI编译器原理,将站在系统设计的角度,思考在设计现代机器学习系统中需要考虑的编译器问题,特别是中间表达乃至后端优化。 第四部分,实际应用推理系统,讲了太多原理身体太虚容易消化不良,还是得回归到业务本质,让行业、企业能够真正应用起来,而推理系统涉及一些核心算法和注意的事情也分享下。 第五部分,介绍AI框架核心技术,首先介绍任何一个AI框架都离不开的自动微分,通过自动微分功能后就会产生表示神经网络的图和算子,然后介绍AI框架前端的优化,还有最近很火的大模型分布式训练在AI框架中的关键技术。 第六部分,汇总篇介绍大模型,大模型是全栈的性能优化,通过最小的每一块AI芯片组成的AI集群,编译器使能到上层的AI框架,中间需要大量的集群并行、集群通信等算法在软硬件的支持。

封面图片

Meta 开源计算机视觉基础模型 DINOv2

Meta 开源计算机视觉基础模型 DINOv2 Meta 开源了它的计算机视觉基础模型 DINOv2,源代码托管在上,和 Meta 近期开源的其它 AI 模型一样,采用的是非商用的 CC-BY-NC 4.0 许可证。DINOv2 是基于 Vision Transformer (ViT)架构,使用一个包含 1.42 亿幅图像的精选数据集进行预训练,可用于图像分类、视频动作识别、语义分割和深度估计等任务。Meta 称 DINOv2 模型的速度是旧方法的两倍,使用的内存只有旧方法的三分之一。测试显示它相比其它同类模型有显著改进。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人