datawhale的教学项目:

datawhale的教学项目: 本项目旨在作为一个大规模预训练语言模型的教程,从数据准备、模型构建、训练策略到模型评估与改进,以及模型在安全、隐私、环境和法律道德方面的方面来提供开源知识。 项目将以斯坦福大学大规模语言模型课程和李宏毅生成式AI课程为基础,结合来自开源贡献者的补充和完善,以及对前沿大模型知识的及时更新,为读者提供较为全面而深入的理论知识和实践方法。通过对模型构建、训练、评估与改进等方面的系统性讲解,以及代码的实战,我们希望建立一个具有广泛参考价值的项目。 项目受众 人工智能、自然语言处理和机器学习领域的研究者和从业者:该项目旨在为研究者和从业者提供大规模预训练语言模型的知识和技术,帮助他们更深入地了解当前领域的最新动态和研究进展。 学术界和产业界对大型语言模型感兴趣的人士:项目内容涵盖了大型语言模型的各个方面,从数据准备、模型构建到训练和评估,以及安全、隐私和环境影响等方面。这有助于拓宽受众在这一领域的知识面,并加深对大型语言模型的理解。 想要参与大规模语言模型开源项目的人士:本项目提供代码贡献和理论知识,降低受众在大规模预训练学习的门槛。 其余大型语言模型相关行业人员:项目内容还涉及大型语言模型的法律和道德考虑,如版权法、合理使用、公平性等方面的分享,这有助于相关行业从业者更好地了解大型语言模型的相关问题。 项目亮点 项目的及时性:当前大模型发展迅速,社会和学习者缺少较为全面和系统的大模型教程 项目可持续性:当前大模型发展还在初期阶段,对行业的渗透还未全面展开,因此随着大模型的发展,该项目可持续的为学习者提供帮助

相关推荐

封面图片

Google的教学视频《》,介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整

Google的教学视频《》,介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整以及Google的Gen AI开发工具。 大型语言模型是深度学习的一个子集,可以预训练并进行特定目的的微调。这些模型经过训练,可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后,可以利用相对较小的领域数据集对这些模型进行定制,以解决零售、金融、娱乐等不同领域的特定问题。 大型语言模型的三个主要特征是:大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模,也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练,然后用较小的数据集对其进行特定目的的微调。 使用大型语言模型的好处包括:一种模型可用于不同的任务;微调大型语言模型需要的领域训练数据较少;随着数据和参数的增加,大型语言模型的性能也在持续增长。 此外,视频还解释了传统编程、神经网络和生成模型的不同,以及预训练模型的LLM开发与传统的ML开发的区别。 在自然语言处理中,提示设计和提示工程是两个密切相关的概念,这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型:通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。

封面图片

15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。

15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。 支持 100 万上下文的文本检索,可以分析超过 1 小时的视频,支持视频生成和图片生成。 模型介绍: 我们创建了一个包含多样视频和书籍的大型数据集,运用了 RingAttention(环形注意力)技术来高效训练长序列,并逐步将上下文大小从4千扩展至100万个标记。 本文的主要贡献包括:(a) 构建了具有最大上下文大小的神经网络:我们训练了一个在处理长视频和语言序列方面具有前所未有的大上下文规模的 Transformer(变换器),在复杂的检索任务和长视频理解方面设立了新的标准。 (b) 提出了克服视觉-语言训练挑战的多种解决方案,包括使用遮蔽序列打包技术混合不同长度的序列、通过损失加权平衡语言和视觉的重要性,以及为长序列对话创建由模型生成的问答数据集。 (c) 实现了一种高度优化的训练方案,结合了 RingAttention、遮蔽序列打包等关键特性,适用于数百万长度的多模态序列。 (d) 完全开源了一系列拥有70亿参数的模型家族,能够处理长达100万标记以上的长文本文档(LWM-Text, LWM-Text-Chat)和视频(LWM, LWM-Chat)。 这项工作为在大规模的长视频和语言数据集上训练,进而理解人类知识和多模态世界,以及开发更广泛的AI能力铺平了道路。 项目页面:

封面图片

:开源代码语言模型,包含了英语和中文两种语言版本的代码生成模型。

:开源代码语言模型,包含了英语和中文两种语言版本的代码生成模型。 模型经过大规模训练,训练数据中87%为代码数据,13%为自然语言数据。模型大小提供1B、5.7B、6.7B、33B等多个版本,满足不同需求。 模型在人工评估、多语言程序、MBPP、DS-1000等多个编程基准上均表现出色,在项目级代码补全、代码插入等任务有很好的效果。

封面图片

WiNGPT:基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断

WiNGPT:基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务,提高诊疗效率和医疗服务质量。 核心功能: 医学知识问答:可以回答关于医学、健康、疾病等方面的问题,包括但不限于症状、治疗、药物、预防、检查等。 自然语言理解:理解医学术语、病历等医疗文本信息,提供关键信息抽取和归类 多轮对话:可扮演各种医疗专业角色如医生与用户进行对话,根据上下文提供更加准确的答案。 多任务支持:支持32项医疗任务,八大医疗场景18个子场景。 模型架构:基于Transformer的70亿参数规模大语言模型, 采用RoPE相对位置编码、SwiGLU激活函数、RMSNorm,训练采用Qwen-7b1作为基础预训练模型。 主要特点: 高准确度:基于大规模医疗语料库训练,具有较高的准确率和较低的误诊可能性。 场景导向:针对不同的医疗场景和真实需求进行专门优化和定制,更好的服务应用落地。 迭代优化:持续搜集和学习最新的医学研究,不断提高模型性能和系统功能。 | 下载地址: |

封面图片

CodeGeeX:这是一个具有 130 亿参数的大规模多语言代码生成模型,开源版的copilot,CodeGeeX是一个具有13

CodeGeeX:这是一个具有 130 亿参数的大规模多语言代码生成模型,开源版的copilot,CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码 ​​​ ||

封面图片

:开源大模型的统一后端接口,支持多种开源大模型

:开源大模型的统一后端接口,支持多种开源大模型 该项目为开源大模型的推理实现统一的接口接口,与OpenAI响应保持一致,具有以下特性: 以OpenAI ChatGPT API这样的方式调用开源分布式大模型 支持流式响应,实现打印机效果 实现文本嵌入模型,为文档知识问答提供支持 支持大规模语言模型开发工具langchain 的广泛功能 要简单的修改环境变量即可将开源模型作为chatgpt的替代模型,为大众应用提供反馈支持 支持加载经过自行训练的lora模型

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人