OpenAI Andrej 的模型训练介绍视频讲的还是很不错的。

OpenAI Andrej 的模型训练介绍视频讲的还是很不错的。 40分钟的视频,可以说是LLM产品经理快速入门。 模型训练的四个阶段,大部分只是走了前三个,走到第四个的屈指可数,比如这个排行榜里只有 GPT4、3.5、Claude 有,这也是为什么人们普遍觉得他们更聪明更像人。 视频地址

相关推荐

封面图片

OpenAIAndrej 的模型训练介绍视频讲的还是很不错的。

OpenAIAndrej 的模型训练介绍视频讲的还是很不错的。 40分钟的视频,可以说是LLM产品经理快速入门。 模型训练的四个阶段,大部分只是走了前三个,走到第四个的屈指可数,比如这个排行榜里只有 GPT4、3.5、Claude 有,这也是为什么人们普遍觉得他们更聪明更像人。 视频地址

封面图片

OpenAI官宣启动“下一代前沿模型”训练 或整合“文生视频”模型Sora

OpenAI官宣启动“下一代前沿模型”训练 或整合“文生视频”模型Sora OpenAI在该博客文章中表示,“虽然我们为打造和发布在能力和安全性方面都处于业界领先地位的模型而感到自豪,但在这个重要时刻,我们欢迎围绕这一问题展开激烈的讨论。”公司称,其成立的这个新委员会的目的就是来评估这项“新的前沿模型”可能带来的任何风险。虽然目前外界普遍预计OpenAI所谓的“下一代前沿模型”就是GPT-5,但公司迄今未做过任何官方形式的表态。而根据OpenAI开发者体验主管罗曼·韦(Romain Huet)上周在巴黎的一次演讲,OpenAI下一代模型可能将被命名为“GPT-Next”。不过,也有外媒认为这实际上是Omni-2一个更精致、训练参数更多、更强的GPT-4o增强版。OpenAI称,新成立的“安全与保障委员会”的首要任务“将是在未来90天内评估进一步发展OpenAI的流程和保障措施”。随后,OpenAI将在董事会审查后公开分享“采纳建议”的最新情况。这意味着OpenAI的董事会应该最迟在今年8月26日收到该委员会的建议。如果按照这样的时间表来计算,OpenAI最快可能在今年秋季发布所谓的“下一代前沿模型”。不过,《纽约时报》报道称,AI模型的训练可能需要数月甚至数年时间。训练完成后,AI公司通常还会再花几个月时间来测试该模型,并对其进行微调,之后才能供公众使用。这就意味着,OpenAI的下一代模型可能并不会在90天之后就发布。在最近的国际人工智能首尔峰会期间发布的“安全更新(Security Update)”中,OpenAI也表示,在(其下一代模型)发布前,公司将花更多时间评估新模型的功能,这可以解释为什么没有具体的发布日期。OpenAI并未明确提及训练中模型的名称,但外界第一时间猜测这一“前沿模型”就是GPT-5。此前,OpenAI的基础模型一直遵循着明确的命名顺序,即GPT后以递增数字的形式变化。不过,需要注意的是,本月OpenAI发布的模型却命名为GPT-4o。在当地时间5月22日巴黎举行的VivaTech会议上演示 ChatGPT Voice时,OpenAI开发者体验主管罗曼·韦展示了一张幻灯片,揭示了未来几年人工智能模型的潜在增长趋势和命名,其中并没有GPT-5。 罗曼·韦展示了GPT-3时代、GPT-4时代、GPT-Next和“未来的模型”,而“Today(今天)”就处于GPT-4时代和GPT-Next之间。这似乎意味着,OpenAI推出的下一代模型或将命名为GPT-Next,但有外媒认为这实际上是Omni-2一个更精致、训练参数更多、更强的GPT-4o增强版。而且,罗曼·韦在演讲中也表示,在未来几个月或者说今年,人们将看到更多类型的OpenAI模型,而不仅仅是ChatGPT一种模型。迭代趋势预示下一代模型将整合Sora福布斯报道称,OpenAI所谓的“下一代前沿模型”可能会取代其领先的基础模型GPT-4,以及图像生成器、虚拟助手、搜索引擎和旗舰聊天机器人ChatGPT等强大的生成式AI工具。科技媒体ZDNET报道称,按照过去的趋势,外界可以预期“下一代前沿模型”的反应会更加准确,因为它将接受更多数据的训练。模型训练的数据越多,该模型生成连贯、准确内容的能力就越强,从而也能拥有更好地性能。例如,有研究称GPT-3.5是在1750亿个参数上训练的,而GPT-4的训练参数则已经达到1万亿。报道称,如果OpenAI“下一代前沿模型”发布,我们可能会看到该模型在训练参数上更大的飞跃。而回顾OpenAI过往的基础模型,从GPT-3.5到最新的GPT-4o,可以看到,随着模型的升级,产品的迭代已经让其变得更加智能,包括价格、响应速度、上下文长度等等。要知道,GPT-3.5只能输入和输出文本,而到GPT-4 Turbo时,已经可以通过文字和图像的输入以获得文本的输出。GPT-4o更是展示了更强大的能力,不仅能处理文本,还能创建图像内容,并以高度对话化的语音方式回答问题和响应指令。ZDNET报道称,按照OpenAI基础模型这样的迭代趋势,“下一代前沿模型”或将拥有输出视频的能力。今年2月,OpenAI发布了“文生视频”模型Sora,这可能会被整合到“下一代前沿模型”中以输出视频。OpenAI的目标是在超越竞争对手的同时,更快地推进AI技术,同时也安抚那些认为该技术越来越危险、助长虚假信息传播、取代工作岗位甚至威胁人类生存的批评者。虽然OpenAI在周二的博客文章中称,预期其“新前沿模型”将使我们在通往AGI的道路上达到更高的能力水平,这是一种能够理解、学习和执行人类可以执行的任何智力任务的 AI 形式。不过,专家们对 AGI 的可行性以及何时可能实现存在分歧。被誉为 AI 教父的 Geoffrey Hinton 估计,可能需要 20 年才能发展出 AGI。英伟达CEO黄仁勋则预测称,AI会在五年内通过人类测试,AGI将很快到来。 ... PC版: 手机版:

封面图片

OpenAI 发布介绍 Sora,文本转视频模型

OpenAI 发布介绍 Sora,文本转视频模型 OpenAI 发布介绍 Sora,文本转视频模型。Sora 能够创造出长达 60 秒的视频,展现高度详尽的场景、复杂的摄像机运动,以及多个角色充满活力的情感。 了解更多,请访问

封面图片

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型 就在几天前,YouTube 首席执行官尼尔-莫汉(Neal Mohan)在接受彭博社采访时表示,OpenAI 据称使用 YouTube 视频来训练其新的文本到视频生成器 Sora 将违反该平台的政策。据《纽约时报》报道,OpenAI 使用其 Whisper 语音识别工具转录了超过 100 万小时的 YouTube 视频,然后用于训练 GPT-4。The Information此前曾报道,OpenAI 曾使用 YouTube 视频和播客来训练这两个人工智能系统。据报道,OpenAI 总裁格雷格-布罗克曼(Greg Brockman)也是这个团队的成员之一。Google发言人马特-布莱恩特(Matt Bryant)告诉《纽约时报》,根据Google的规定,"未经授权采集或下载 YouTube 内容"是不被允许的,同时他还表示,公司并不知道 OpenAI 使用过此类内容。不过,该报道称,Google有人知道但没有对 OpenAI 采取行动,因为Google自己也正在使用 YouTube 视频训练自己的人工智能模型。但Google告诉《纽约时报》 ,它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称,Google在 2022 年 6 月调整了其隐私政策,以更广泛地涵盖使用公开内容(包括Google文档和Google工作表)来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》,只有在选择使用Google实验功能的用户允许的情况下,Google才会这样做,而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 ... PC版: 手机版:

封面图片

苹果发布可在本地运行的开放模型 OpenELM

苹果发布可在本地运行的开放模型 OpenELM 苹果发布了它的开放模型 ,可以在本地设备而不是云端运行。OpenELM 的权重、训练的不同检查点(checkpoints)、预训练评估微调等的指南都公布在 Hugging Face 平台上。示例代码许可并不禁止商业使用或修改,只是要求在重新发布时包含苹果完整且没有修改过的声明。OpenELM 由一组旨在高效执行文本生成任务的小模型组成,共八个模型,四个预训练四个指令微调,参数规模从 2.7 亿到 30 亿。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

北大卢菁:1. 训练起来大模型和训练出有通用能力的模型完全是两码事。

北大卢菁: 1. 训练起来大模型和训练出有通用能力的模型完全是两码事。 目前国内大模型只能说训练起来了,但是远无技术壁垒,这是大厂本就应该具备的能力,并不值得骄傲。 2. 具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。而且这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。 3. 如果瓶颈真的在语料,我很悲观这会成为比芯片更大的壁垒。 因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。 4. 现阶段,最关键的是把智能做上去。诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息企业来说是这样,如果只是想做做应用就另当别论了。 5. 拿Llama2 Finetune刷榜意义不大,在特定数据集上刷得比GPT-4高并不能说明任何问题。 国内厂商最搞笑的是把C-eval的数据丢进训练集里面,然后再在C-eval上刷榜,各种吊打GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。 事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。 6. 知识能力可能不是个事,GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误。而且推理能力比其他模型要强太多太多,我想其中可能有特别的建模方式,不清楚是不是RLHF带来的收益。 7. 数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。 8. 流量不是大模型要考虑的事情,大模型要解决的是人类面临的难题, 比如解决人类还没解决的科学问题去扩展人类的智能; 帮助企业做商业计划优化市场经济;帮助社会建立更健全体系等等,达到千金一Token的效果。否则只是陪用户聊天,ROI很难做正。 9. 在国内做LLM其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。 预计两年内不会有太好的成果,而我也非常期待被打脸。 10. 两个东西需要重新思考:在过去做不Work的想法,也许在大模型下可以重新尝试,说不定就Work了;在小模型下做Work的想法,也许在一定规模之后就不再Work了。 原因很简单,过去不Work的做法也许只是模型能力不够无法按照我们的预期去拟合;

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人