怎样从零开始训练一个AI车手?

怎样从零开始训练一个AI车手?如何快速理解强化学习的概念?驯只猫就行。比如下面这位爷,巨皮。整天就是跑酷、尿炕、抓沙发,搞到人头皮发麻、心态爆炸。直到你忍不了了,决定对它进行残酷的猫德教育。方案是:允中发自凹非寺以后在家,每当它表现出一次守猫德的行为,就奖励一根猫条;而每当它皮一次,你就立刻扑过去,咬它的头……这样反复拉扯两个月之后,你的猫再也不敢皮了——这个过程里发生的事情,就是“强化学习”:一个智能体(你的猫)在与环境(有你的你家)互动的过程中,在奖励(猫条)和惩罚(咬头)机制的刺激下,逐渐学会了一套能够最大化自身收益的行为模式(安静,躺平)。所以其实,养猫跟搞人工智能,道理是一样的。强化学习最著名的代表当然是AlphaGo:几万盘棋,左右互搏,最后无师自通成了独步天下的围棋之神。如果把AlphaGo看作上面例子里的猫,那在训练里,决定它能否获得“猫条”的每盘棋最终的对弈结果——赢了就有好东西吃,输了就要被吃(bushi)。另外,DeepMind开发出过一个能在57款雅达利游戏上都超越人类玩家的智能体,背后依靠的同样是强化学习算法。不过这里的奖励和惩罚机制就要根据不同的游戏来具体设计了。比如玩最简单的吃豆人,就可以对每次吃到豆子的行为进行奖励,对撞到幽灵gg的状况给予惩罚。而除了在游戏领域天空海阔之外,强化学习,其实还能拿来搞自动驾驶。如何训练AI司机为了更方便地说明这件事怎么实现,这里我们借用一个道具:来自亚马逊云科技的AmazonDeepRacer。一辆看上去很概念的小车,跟真车的比例是1比18。车上安装了处理器、摄像头,甚至还可以配置激光雷达,为的就是实现自动驾驶——当然,前提就是我们先在车上部署训练好的强化学习算法。算法的训练需要在虚拟环境中进行,为此AmazonDeepRacer配套了一个管理控制台,里面包含一个3D赛车模拟器,能让人更直观地看到模型的训练效果。有了这套东西,我们就能自己尝试从零开始训练一个AI司机。具体怎么做呢?重点来了:假设这是模拟器里的一条完全笔直的赛道,以及虚拟环境里的AmazonDeepRacer赛车。我们的目标是让赛车以最短的时间冲刺到终点——那么对于这条赛道而言,最好的选择就是让车尽量沿着中线跑,避免因绕路或出界而导致增加时长。为此,我们可以把赛道切分成多个网格,然后给这些网格赋予不同的分数:靠近中间的,给更高的分;在两侧的,稍微意思一下;超出赛道范围的部分属于无效区域,如果碰到,就要从头再来。开跑之后,一开始,赛车并不知道哪一条是最佳路线,只是在像无头苍蝇一样四处乱撞,很多时候还会冲出赛道。但后面,随着试错的次数越来越多,在奖励函数的“指挥”下,赛车会逐渐探索出一条能够获得最高累积分数的路线。理想状况下,一段时间的训练、迭代之后,算法就会学会“直线”最快这条真理。而再把算法部署到车上,我们就能收获一辆会跑直线的赛车。当然跑直线只是一种最简单的情...PC版:https://www.cnbeta.com/articles/soft/1311641.htm手机版:https://m.cnbeta.com/view/1311641.htm

相关推荐

封面图片

从零开始的算法竞赛入门教程

从零开始的算法竞赛入门教程针对没有任何编程经验的同学写一份C++的教程是十分困难的,因为C++光是语法部分就能填充一本如同字典一般厚的书,而在算法竞赛中,我们仅仅是选择学习一些需要用到的,足以完成问题求解即可学习程序语言和学习语言的过程是类似的,可以通过反复地模仿来熟悉,不断地尝试来积累,然后慢慢地能够做到自我创造,所以不要踌躇不前,不要觉得难以下手,去模仿,去写去尝试本教程基于USACOTraining,结合题目内容讲解,随缘更新#算法

封面图片

从0到1构建一个MiniLLM

本项目旨在构建一个小参数量的llm,走完预训练->指令微调->奖励模型->强化学习四个阶段,以可控的成本完成一个可以完成简单聊天任务的chat模型,目前完成前两个阶段。使用bert4torch训练框架,代码简洁高效;训练的checkpoint可以无缝衔接transformers,直接使用transformers包进行推理;优化了训练时候文件读取方式,优化内存占用;提供了完整训练log供复现比对;增加自我认知数据集,可自定义机器人名称作者等属性。chat模型支持多轮对话。

封面图片

作为当下最受欢迎的开源 AI 大模型解决方案,GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源AI大模型解决方案,GitHub上一个开源项目Colossal-AI建立了一整套完整的RLHF流程,包括:监督数据集收集->监督微调->奖励模型训练->强化学习微调。并且,技术团队以LLaMA为基础预训练模型,正式推出了ColossalChat,这也是目前最接近ChatGPT原始技术方案的实用开源项目。该项目包括但不限于以下功能:-Demo:可直接在线体验模型效果,无需注册或waitinglist;-训练代码:开源完整RLHF训练代码,已开源至含7B和13B两种模型;-数据集:开源104K中、英双语数据集;-推理部署:4bit量化推理70亿参数模型仅需4GB显存;-模型权重:仅需单台服务器少量算力即可快速复现;-更大规模模型、数据集、其他优化等将保持高速迭代添加。目前,相关代码已开源至GitHub,感兴趣的同学可以看下。项目还有提供完整的中文教程,进一步降低学习门槛,让大家能更快上手开发。

封面图片

用GPT-4训练机器人 英伟达最新Agent开源:任务越复杂越拿手

用GPT-4训练机器人英伟达最新Agent开源:任务越复杂越拿手尤其是转笔这个技能,要知道靠人类逐帧制作动画,也是非常困难的。最终,Eureka在超过80%的任务中都超越人类专家,让机器人平均性能提升到50%以上。这一研究吸引了数十万网友关注,有人表示:直接快进到它弹钢琴那天,直接为大众所用。英伟达科学家,也是此次共同作者之一JimFan评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。目前该项目完全开源。GPT-4生成奖励策略在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1等),但在复杂任务控制方面有所欠缺。而Eureka的关键所在,就是通过上下文来实现了人类水平的奖励算法设计。简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。研究人员提出了一种混合梯度架构,外循环运行GPT-4来细化奖励函数(无梯度),而内循环运行强化学习来训练机器人控制器(基于梯度)。主要有三个关键组成部分:模拟器环境代码作为上下文启动初始“种子”奖励函数。GPU上的大规模并行强化学习,可以快速评估大量候选奖励。奖励反射rewardreflection,得益于GPT-4评估和修改能力,一步步迭代。首先,无需任何特定提示工程和奖励模版。使用原始IsaacGym(一种GPU加速的物理模拟器)环境代码作为上下文,生成初始奖励函数。这种无梯度的情境学习方式,可以根据各种形式的人类输入,生成性能更强、符合开发人员愿景的奖励函数。其次,Eureka在每个进化步骤中都会生成很多候选函数,然后利用强化学习训练来进行快速评估。以往这种过程需要几天甚至几周来完成,但由IsaacGym可将模拟时间提高1000倍,强化学习内循环能在几分钟完成。最后,依赖于奖励反射,Eureka还支持一种新形式的上下文RLHF。它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。最终,在29种不同的开源RL环境中,83%基准测试中Eureka都优于人类,并实现了52%改进。这些环境包括10种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka表现更好,且与人类奖励的相关性越低。甚至在少数情况下,AI的策略与人类的策略呈现负相关。这就有点像当年AlphaGo的下棋策略,人类看不懂学不会,但十分有效。英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。可以看到的是,近半数研究人员都是华人。一作是YechengJasonMa,目前是宾大GRASP实验室的四年级博士生,研究方向是强化学习和机器人学习。英伟达科学家JimFan此次也是通讯作者之一。咳咳,不过至于网友提到的弹钢琴,JimFan自己曾分享过:只需几个简单按钮,AI就能实时即兴生成演奏音乐。不知道,未来会不会这样的呢?(不过,这研究已经是2018年的了)...PC版:https://www.cnbeta.com.tw/articles/soft/1391745.htm手机版:https://m.cnbeta.com.tw/view/1391745.htm

封面图片

腾讯AI登顶国际麻将平台:10.68段遥遥领先

腾讯AI登顶国际麻将平台:10.68段遥遥领先官方表示,这代表着腾讯研发团队在决策AI方向上取得了业界领先的成绩和突破。据介绍,“天凤”是知名日本麻将竞技平台,拥有较为体系化的竞技规则和专业段位规则,全世界的麻将AI基本都在这里进行训练和打段。“段位”类似于《王者荣耀》,天凤按照1段—11段来进行排位,10段就相当于《王者荣耀》的荣耀王者段位。腾讯表示,由于麻将除了正常的摸牌、打牌外,还要决定是否吃牌、碰牌、杠牌以及是否胡牌,任意一位玩家的行为都会改变摸牌的顺序,涉及大量决策。传统离线策略训练方法、传统的在线搜索算法对麻将来说并不完全适用,于是腾讯AILab提出了ACH(actorcritichedge)的新型策略优化算法。据了解,该算法采用了基于强化学习和遗憾值最小化的自我博弈技术,使AI能从零开始自我学习和提高。该算法具备传统强化学习可扩展性好(算的快)的优点,又部分继承了遗憾值最小化算法的一些理论性质(算的好),相比传统的强化学习方法,该策略优化算法在非完美信息游戏中训练得到的策略更平衡(攻守兼备)。另外,不同于过去搜索与离线策略的结合方式,腾讯将搜索返回的结果作为一种“特征”输入到自研的策略神经网络,使得AI在有海量隐藏信息的游戏状态中,仍可以实时调整当前策略。腾讯称,训练麻将AI,其实就是在训练AI更好地去认识人类的世界,最终让AI能早日走进那些人类生活中,如金融交易、自动驾驶、交通物流、拍卖系统等,解决真实世界的复杂问题。...PC版:https://www.cnbeta.com.tw/articles/soft/1370213.htm手机版:https://m.cnbeta.com.tw/view/1370213.htm

封面图片

从零开始的嵌入式图像处理实战

从零开始的嵌入式图像处理实战课程介绍本课程将带您系统学习嵌入式系统中的图像处理技术,包括基本概念、算法原理和实际应用。通过实战案例,您将掌握图像采集、处理和分析的关键方法,为自己在嵌入式领域的发展打下坚实基础。学习地址百度:天翼:阿里:夸克:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人