用强化学习训练AI玩保龄球的过程与问题
当用强化学习训练AI玩保龄球,他的重复洗钩行为让我觉得他在故意蹭电量玩保龄球。
首先AI需要控制身高6英寸,体重60公斤的身体,而且身体的不同部位重量不同,会影响发力。正所谓腰马合一,我们把腰胯的地方设置为影响最高AI需要学习了解12个不同部位在不同动作中如何组合发力,达到完美的效果。
结果毫不意外,第一次接触身体的时候,AI跟寄生体还不是很熟悉,开始原地抽搐,学习发力去了,但我们还是要强迫他学习。首先我们引入奖惩制度,AI扔出的球速度快就加分,速度慢就减分,这个奖励标准随平均球速提高而提高。像极了被榨干的打工人。AI的表现也很应景。每次扔完球都像被榨干了,直接躺地上了。
我们还发现,由于只是让AI练习扔球,他不往眼前的赛道扔了,因为他发现右手拿球的时候用全身力往外面甩可以获得最高球速。孩子路走歪了,自然要拉回来,扔出球道以外的统统减分。
修改完规则后,继续让AI进行投球定点训练,再给保龄球加上旋转的熟悉,让训练环境更贴近真实。
在大量练习之后,AI的姿势算是有模有样,除了扔球时奋不顾身的样子,估计是他在训练扔球时,在所有的糟糕姿势中,这个前扑的姿势让他认为更好得分。
这就是深度学习的弊端之一,需要人为的把控方向,否则AI练歪了还得重新训练。而且由于训练时间过短,AI只记住扔正中间,全部打倒是最优解,导致他不会调整方向去击打剩下的球瓶。
不过有一说一,让AI进行十次测试之后,平均的首次击球得分是很高的,只要他能抓住倒下前的扔球时机,不然还是洗钩收场。抖音。
### 掌握AI保龄球训练精髓,开启高效进阶之路
在进行AI保龄球训练时,强化学习是关键手段。首先要明确AI控制的虚拟角色身体参数,如身高6英寸、体重60公斤,不同部位重量影响发力,需学习12个部位在不同动作中的发力组合。
引入奖惩制度很重要,球速快加分、慢减分,标准随平均球速提高。初期AI会原地抽搐学习发力,扔球后像被榨干躺地。发现其为获高球速往赛道外扔球,及时修改规则,对出界减分。
接着进行投球定点训练,给球加旋转让环境更真实。大量练习后AI姿势有模有样,但会因深度学习弊端出现问题,如只知打正中间、不会调整方向,训练时间短导致只记最优解。不过多次测试首次击球平均得分较高,抓住扔球时机很关键,否则易洗钩收场。
强化学习,AI,保龄球,训练,奖惩制度,投球,深度学习
首先AI需要控制身高6英寸,体重60公斤的身体,而且身体的不同部位重量不同,会影响发力。正所谓腰马合一,我们把腰胯的地方设置为影响最高AI需要学习了解12个不同部位在不同动作中如何组合发力,达到完美的效果。
结果毫不意外,第一次接触身体的时候,AI跟寄生体还不是很熟悉,开始原地抽搐,学习发力去了,但我们还是要强迫他学习。首先我们引入奖惩制度,AI扔出的球速度快就加分,速度慢就减分,这个奖励标准随平均球速提高而提高。像极了被榨干的打工人。AI的表现也很应景。每次扔完球都像被榨干了,直接躺地上了。
我们还发现,由于只是让AI练习扔球,他不往眼前的赛道扔了,因为他发现右手拿球的时候用全身力往外面甩可以获得最高球速。孩子路走歪了,自然要拉回来,扔出球道以外的统统减分。
修改完规则后,继续让AI进行投球定点训练,再给保龄球加上旋转的熟悉,让训练环境更贴近真实。
在大量练习之后,AI的姿势算是有模有样,除了扔球时奋不顾身的样子,估计是他在训练扔球时,在所有的糟糕姿势中,这个前扑的姿势让他认为更好得分。
这就是深度学习的弊端之一,需要人为的把控方向,否则AI练歪了还得重新训练。而且由于训练时间过短,AI只记住扔正中间,全部打倒是最优解,导致他不会调整方向去击打剩下的球瓶。
不过有一说一,让AI进行十次测试之后,平均的首次击球得分是很高的,只要他能抓住倒下前的扔球时机,不然还是洗钩收场。抖音。
### 掌握AI保龄球训练精髓,开启高效进阶之路
在进行AI保龄球训练时,强化学习是关键手段。首先要明确AI控制的虚拟角色身体参数,如身高6英寸、体重60公斤,不同部位重量影响发力,需学习12个部位在不同动作中的发力组合。
引入奖惩制度很重要,球速快加分、慢减分,标准随平均球速提高。初期AI会原地抽搐学习发力,扔球后像被榨干躺地。发现其为获高球速往赛道外扔球,及时修改规则,对出界减分。
接着进行投球定点训练,给球加旋转让环境更真实。大量练习后AI姿势有模有样,但会因深度学习弊端出现问题,如只知打正中间、不会调整方向,训练时间短导致只记最优解。不过多次测试首次击球平均得分较高,抓住扔球时机很关键,否则易洗钩收场。
强化学习,AI,保龄球,训练,奖惩制度,投球,深度学习
评论 (0)
