OpenAIAndrej 的模型训练介绍视频讲的还是很不错的。

OpenAIAndrej 的模型训练介绍视频讲的还是很不错的。 40分钟的视频,可以说是LLM产品经理快速入门。 模型训练的四个阶段,大部分只是走了前三个,走到第四个的屈指可数,比如这个排行榜里只有 GPT4、3.5、Claude 有,这也是为什么人们普遍觉得他们更聪明更像人。 视频地址

相关推荐

封面图片

OpenAI Andrej 的模型训练介绍视频讲的还是很不错的。

OpenAI Andrej 的模型训练介绍视频讲的还是很不错的。 40分钟的视频,可以说是LLM产品经理快速入门。 模型训练的四个阶段,大部分只是走了前三个,走到第四个的屈指可数,比如这个排行榜里只有 GPT4、3.5、Claude 有,这也是为什么人们普遍觉得他们更聪明更像人。 视频地址

封面图片

苹果发布可在本地运行的开放模型 OpenELM

苹果发布可在本地运行的开放模型 OpenELM 苹果发布了它的开放模型 ,可以在本地设备而不是云端运行。OpenELM 的权重、训练的不同检查点(checkpoints)、预训练评估微调等的指南都公布在 Hugging Face 平台上。示例代码许可并不禁止商业使用或修改,只是要求在重新发布时包含苹果完整且没有修改过的声明。OpenELM 由一组旨在高效执行文本生成任务的小模型组成,共八个模型,四个预训练四个指令微调,参数规模从 2.7 亿到 30 亿。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

北大卢菁:1. 训练起来大模型和训练出有通用能力的模型完全是两码事。

北大卢菁: 1. 训练起来大模型和训练出有通用能力的模型完全是两码事。 目前国内大模型只能说训练起来了,但是远无技术壁垒,这是大厂本就应该具备的能力,并不值得骄傲。 2. 具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。而且这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。 3. 如果瓶颈真的在语料,我很悲观这会成为比芯片更大的壁垒。 因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。 4. 现阶段,最关键的是把智能做上去。诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息企业来说是这样,如果只是想做做应用就另当别论了。 5. 拿Llama2 Finetune刷榜意义不大,在特定数据集上刷得比GPT-4高并不能说明任何问题。 国内厂商最搞笑的是把C-eval的数据丢进训练集里面,然后再在C-eval上刷榜,各种吊打GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。 事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。 6. 知识能力可能不是个事,GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误。而且推理能力比其他模型要强太多太多,我想其中可能有特别的建模方式,不清楚是不是RLHF带来的收益。 7. 数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。 8. 流量不是大模型要考虑的事情,大模型要解决的是人类面临的难题, 比如解决人类还没解决的科学问题去扩展人类的智能; 帮助企业做商业计划优化市场经济;帮助社会建立更健全体系等等,达到千金一Token的效果。否则只是陪用户聊天,ROI很难做正。 9. 在国内做LLM其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。 预计两年内不会有太好的成果,而我也非常期待被打脸。 10. 两个东西需要重新思考:在过去做不Work的想法,也许在大模型下可以重新尝试,说不定就Work了;在小模型下做Work的想法,也许在一定规模之后就不再Work了。 原因很简单,过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合;

封面图片

Google的教学视频《》,介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整

Google的教学视频《》,介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整以及Google的Gen AI开发工具。 大型语言模型是深度学习的一个子集,可以预训练并进行特定目的的微调。这些模型经过训练,可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后,可以利用相对较小的领域数据集对这些模型进行定制,以解决零售、金融、娱乐等不同领域的特定问题。 大型语言模型的三个主要特征是:大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模,也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练,然后用较小的数据集对其进行特定目的的微调。 使用大型语言模型的好处包括:一种模型可用于不同的任务;微调大型语言模型需要的领域训练数据较少;随着数据和参数的增加,大型语言模型的性能也在持续增长。 此外,视频还解释了传统编程、神经网络和生成模型的不同,以及预训练模型的LLM开发与传统的ML开发的区别。 在自然语言处理中,提示设计和提示工程是两个密切相关的概念,这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型:通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。

封面图片

GPT4 的四个能力示例

GPT4 的四个能力示例 - 画小人,对人体的结构理解和视觉能力 - 文字解谜,对空间的感知能力 - 对话分析,对人类对话的深度理解能力 - 代码解释,用自然语言推导代码运行结果 读过《千脑智能》的朋友应该还记得,人类的大脑里有一个世界模型,并在此模型内进行预测,而GPT4里也初步展现出“世界模型”。 要注意,这只是没有经过视觉训练的GPT4的早期版本。 GPT4 多模态版本的真正的实力,除了 OpenAI 还没人知道。

封面图片

如果预训练阶段没有看过,在微调时增加的知识可能更容易让模型产生幻觉。

如果预训练阶段没有看过,在微调时增加的知识可能更容易让模型产生幻觉。 以此推论,开源模型微调的事实性很难有提升。而GPT4的事实性准确性也来自预训练。 anton: This is a useful recent talk on why LLMs hallucinate. It seems that fine tuning can teach the model to hallucinate more if that knowledge was not previously seen before during training

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人