很有意思的一个研究,让 LLM 帮助培训社交沟通技能,确实有很多人需要这样的服务,LLM 又擅长这个。

很有意思的一个研究,让 LLM 帮助培训社交沟通技能,确实有很多人需要这样的服务,LLM 又擅长这个。 通过一个通用框架,利用大语言模型(LLM)进行社交技能训练。“AI伙伴,AI导师”框架将实际体验学习与真实场景练习和个性化反馈相结合。 详细介绍: 使用大语言模型进行社交技能训练的提议: 研究者提出,可以利用大语言模型强大的对话生成能力,为社交技能练习提供一个随时可用、安全可控的环境。相关研究已经证实,当前的大语言模型已经能够较好地模拟各类人物,进行逼真的对话互动。这为将其应用于社交技能训练奠定了基础。 AI Partner和AI Mentor框架的提出: 论文提出了一个通用的社交技能训练框架,包括两个关键组件:AI Partner负责提供对话实践的环境,AI Mentor负责在关键节点给予个性化指导。二者协同,可以把体验式的实践学习与理论指导有机结合,有望大幅提升社交技能训练的可及性和有效性。 使用该框架进行社交技能训练的应用场景 该框架可以灵活应用于多个领域的社交技能训练,如心理咨询、谈判、教学等。通过调整AI Partner塑造的人物角色,以及AI Mentor搭载的领域知识库,就可以对应不同领域的训练需求。论文通过一系列案例展示了这种适用性和灵活性。 论文地址:

相关推荐

封面图片

- Silicon LLM Training & Inference Toolkit:基于 MLX 框架的 Silicon LL

- Silicon LLM Training & Inference Toolkit:基于 MLX 框架的 Silicon LLM 训练和推理工具包,简化了在 Apple Silicon 上训练和运行大语言模型的过程

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。 从社区讨论来看,这个研究可以大幅压缩模型体积,让 120B 大小的模型能在 24G 显存的设备上运行。 再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。 论文简介: 《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》 一种1位的LLM变体,命名为BitNet b1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。 更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。 论文:

封面图片

发现了个好东西,这个老哥开源了一门课程《从头开始构建大型语言模型》,这门课程将一步步地指导你创建自己的LLM。#AI# #llm

发现了个好东西,这个老哥开源了一门课程《从头开始构建大型语言模型》,这门课程将一步步地指导你创建自己的LLM。#AI# #llm# 每个阶段都有清晰的文本、图表和实例来解释相关概念。 课程内容包括: 1. 从基础理解注意力机制 2. 构建并预训练一个类似于GPT的模型 3. 学习如何加载预训练的权重 4. 对模型进行分类任务的微调 5. 使用直接偏好优化进行指令微调模型 课程地址:

封面图片

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能

a16z近期公布了他们的开源 AI 资助计划第二期,主要关注两个领域:包括用于训练、托管和评估语言模型的工具以及围绕视觉人工智能构建的模型和社区。第二期有7 个项目: :一个在任何云上运行LLMs、AI和批处理作业的框架,提供最大的成本节省、最高的GPU可用性和托管执行。 主要能力有:在任何云上启动作业和集群、排队并运行多个作业,自动管理、轻松访问对象存储、自动选择最便宜的云服务。 :用于微调LLMs的工具,支持多种配置和架构。 工具支持:训练各种Huggingface模型,如llama、pythia等、支持全面微调、lora、qlora、relora和gptq多种训练方式、使用简单的yaml文件或CLI覆盖自定义配置等。还有很多其他特性。 :开源模型、系统和评估平台。 开源了 LLM 用的数据集,还有一个 LLM 模型。最著名的还是通过 ELO 算法和机制评估 LLM 质量的项目,这种人工评分的机制比一些数据集的评价方法更加可以反应人类对于 LLM 质量的判断。 :用于训练许多LLMs的开放网络爬取数据存储库。 这是一个从 2007 年就开始收集的互联网语聊数据库,他们会定期抓取,你可以免费下载所有数据用来训练模型。GPT-3 82%的训练语料来自这个项目。 :开源多模态模型(语言和视觉)。 端到端训练的大型多模态模型,连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。 现在最新的是LLaVA1.5 版本,只是对原始LLaVA进行简单修改,利用了所有公开数据,在单个8-A100节点上约1天内完成训练。 :AI动画的平台和开源社区,是一种 AI 生成动画的方式。Deforum的 WebUI 插件和 Discord 社区都是他们在维护。 :高影响力AI模型的开放实现。 Phil Wang,也以其在线昵称“lucidrains”而闻名,在AI和机器学习领域是一位杰出人物。以在PyTorch框架中实现各种有趣的AI模型和论文而闻名。他的工作包括Vision Transformer、DALL-E 2、Imagen和MusicLM等的实现。

封面图片

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型 理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku,以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库,并通过结合三种并行化技术优化了 Fugaku 的通信性能,还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数,比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力,在日语 MT-Bench 中平均得分 5.5,是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取,模型可在 Hugging Face 上获取。只要用户遵守许可证,Fugaku-LLM 可用于研究和商业目的。未来,随着更多研究人员和工程师参与改进模型及其应用,训练效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来,大型语言模型(LLM)的发展十分活跃,尤其是在美国。其中,由 OpenAI 开发的 ChatGPT(6) 的迅速普及,对研发、经济体系和国家安全产生了深远影响。除美国外,其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源,以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望,因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境,以满足这些期望。因此,东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学:大型语言模型的总体监督、并行化和通信加速(通过三种并行化组合优化通信性能,加速 Tofu 互联 D 上的集体通信)东北大学收集训练数据和选择模型富士通加速计算和通信(加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能)以及实施预训练和训练后微调理化学研究所:大规模语言模型的分布式并行化和通信加速(Tofu 互联 D 上的集体通信加速)名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent:提供训练数据Kotoba Technologies:将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开,以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议,Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起,Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来,随着越来越多的研究人员和工程师参与到模型及其应用的改进中来,训练的效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联系,以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"(提案号:hp230254)的支持。 ... PC版: 手机版:

封面图片

Stability AI 发布了其新的开放大型语言模型(LLM)StableCode

Stability AI 发布了其新的开放大型语言模型(LLM)StableCode Stability AI 刚刚宣布推出了 StableCode,这是他们首个用于编码的 LLM 生成式人工智能产品。该产品旨在帮助程序员完成日常工作,同时也为准备将技能提升到新水平的新开发人员提供了一个出色的学习工具。 旨在帮助开发人员生成代码,并提供三个版本:通用用例的、和,其中长上下文窗口模型支持多达 16,000 个令牌以进行更高级的编程。 StableCode是使用来自开源BigCode项目的编码数据进行训练的,支持Python、Go、Java、JavaScript、C、Markdown和C++等语言的开发。BigCode项目被用作ServiceNow Inc.的StarCoder LLM的基础,该项目是与HuggingFace Inc.合作开发的,并于五月份推出。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人