:介绍了使用 DSPy 框架对语言模型进行红队攻击的尝试,展示了用 DSPy 编译后的架构效果

None

相关推荐

封面图片

:介绍了如何使用SQL实现一个大型语言模型,解释了SQL不适合实现大型语言模型的原因,介绍了生成式大型语言模型所需的逻辑和算法。

封面图片

构筑大语言模型应用:应用开发与架构设计

构筑大语言模型应用:应用开发与架构设计 作者在2023 年的上半年和同事一起创建了一系列的流行的或者不流行的开源项目。它们涉及了: LLM 能力的充分运用 Prompt 编写:Prompt 学习与编写模式 Prompt 管理:Prompt 即代码 LLM 下的软件开发工序及应用架构设计 新的交互设计:Chat模式 大模型友好的工序:基于 AI 2.0 (ChatGPT + Copilot)如何去设计软件开发流程 LLM 应用架构的设计与落地:Unit Mesh 面向特定场景的 LLM 应用 基于开源模型构建自己的模型:特定场景的模型微调 +LLMOps 上下文工程(prompt 工程):LLM 应用的核心 “围绕于上述的一系列内容,我们也在思考软件开发能给我们带来了什么。所以,我重新整理了过去半年的一些思考、文章,重新编写了这本开源电子书,希望能够帮助到大家。” | #电子书

封面图片

| #指南 - Transformer是训练语言模型最常用的架构。预训练再微调是训练语言模型的主要方法。

| #指南 - Transformer是训练语言模型最常用的架构。预训练再微调是训练语言模型的主要方法。 - 微调需要收集任务特定的数据集,一般大小在几十MB到几GB。 - 数据预处理非常重要,需要将数据清理成合适的格式,如JSONL。 - 主要的训练超参数包括batch size、epoch数、学习率、梯度累积步数等。 - LoRA是一种减少GPU内存占用的微调方法,QLoRA则通过量化进一步降低了内存需求。 - 学习曲线可以诊断模型的训练情况,判断是否欠拟合、过拟合或拟合良好。 - 模型量化可以降低模型大小,使大模型也能在低显存环境下使用。 - 模型适配器方法可以进行个性化微调而不加载整个模型。 - 模型融合可以组合多个模型的优势得到更优的单模型。 - 合理配置训练超参数以及诊断学习曲线对获得期望的模型至关重要。

封面图片

Google发布了Gemini 1.5 Pro模型的技术报告,报告介绍了Gemini 1.5 Pro的模型架构、训练数据与基础设

Google发布了Gemini 1.5 Pro模型的技术报告,报告介绍了Gemini 1.5 Pro的模型架构、训练数据与基础设施、长文本评测和通用能力评测。 其中一个例子是Gemini 1.5 Pro只需要一个生僻语种的语法手册就可以学会这个语言。 论文简介: Gemini 1.5 Pro:这是一个高效能的多模态混合专家模型(mu ...

封面图片

语言大模型的能力涌现介绍(英文)

封面图片

用于评估和理解大型语言模型的统一评估框架,提供了用户友好的API,方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人