怎样从零开始训练一个AI车手?
怎样从零开始训练一个AI车手?如何快速理解强化学习的概念?驯只猫就行。比如下面这位爷,巨皮。整天就是跑酷、尿炕、抓沙发,搞到人头皮发麻、心态爆炸。直到你忍不了了,决定对它进行残酷的猫德教育。方案是:允中发自凹非寺以后在家,每当它表现出一次守猫德的行为,就奖励一根猫条;而每当它皮一次,你就立刻扑过去,咬它的头……这样反复拉扯两个月之后,你的猫再也不敢皮了——这个过程里发生的事情,就是“强化学习”:一个智能体(你的猫)在与环境(有你的你家)互动的过程中,在奖励(猫条)和惩罚(咬头)机制的刺激下,逐渐学会了一套能够最大化自身收益的行为模式(安静,躺平)。所以其实,养猫跟搞人工智能,道理是一样的。强化学习最著名的代表当然是AlphaGo:几万盘棋,左右互搏,最后无师自通成了独步天下的围棋之神。如果把AlphaGo看作上面例子里的猫,那在训练里,决定它能否获得“猫条”的每盘棋最终的对弈结果——赢了就有好东西吃,输了就要被吃(bushi)。另外,DeepMind开发出过一个能在57款雅达利游戏上都超越人类玩家的智能体,背后依靠的同样是强化学习算法。不过这里的奖励和惩罚机制就要根据不同的游戏来具体设计了。比如玩最简单的吃豆人,就可以对每次吃到豆子的行为进行奖励,对撞到幽灵gg的状况给予惩罚。而除了在游戏领域天空海阔之外,强化学习,其实还能拿来搞自动驾驶。如何训练AI司机为了更方便地说明这件事怎么实现,这里我们借用一个道具:来自亚马逊云科技的AmazonDeepRacer。一辆看上去很概念的小车,跟真车的比例是1比18。车上安装了处理器、摄像头,甚至还可以配置激光雷达,为的就是实现自动驾驶——当然,前提就是我们先在车上部署训练好的强化学习算法。算法的训练需要在虚拟环境中进行,为此AmazonDeepRacer配套了一个管理控制台,里面包含一个3D赛车模拟器,能让人更直观地看到模型的训练效果。有了这套东西,我们就能自己尝试从零开始训练一个AI司机。具体怎么做呢?重点来了:假设这是模拟器里的一条完全笔直的赛道,以及虚拟环境里的AmazonDeepRacer赛车。我们的目标是让赛车以最短的时间冲刺到终点——那么对于这条赛道而言,最好的选择就是让车尽量沿着中线跑,避免因绕路或出界而导致增加时长。为此,我们可以把赛道切分成多个网格,然后给这些网格赋予不同的分数:靠近中间的,给更高的分;在两侧的,稍微意思一下;超出赛道范围的部分属于无效区域,如果碰到,就要从头再来。开跑之后,一开始,赛车并不知道哪一条是最佳路线,只是在像无头苍蝇一样四处乱撞,很多时候还会冲出赛道。但后面,随着试错的次数越来越多,在奖励函数的“指挥”下,赛车会逐渐探索出一条能够获得最高累积分数的路线。理想状况下,一段时间的训练、迭代之后,算法就会学会“直线”最快这条真理。而再把算法部署到车上,我们就能收获一辆会跑直线的赛车。当然跑直线只是一种最简单的情...PC版:https://www.cnbeta.com/articles/soft/1311641.htm手机版:https://m.cnbeta.com/view/1311641.htm
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人