英伟达AI玩游戏执着卡bug,探索速通路线

英伟达AI玩游戏非常执着卡bug。

速通视频中的绿色角色由AI操控,正常玩家基本会选爬下悬崖行走,而AI直接忽视建议路线,跨过悬崖飞扑落地终点。当测试者告诉AI直接跳下悬崖不符合物理时,AI做出了改变,选择飞扑抓住终点后的墙壁再落地,反正让它慢下来是不可能的。

而这个AI初代只是一个不断在悬崖边缘反复试探的菜鸟,明知道往左走可以通关,但就是想试探规则。摸清楚规则后,第二代AI在同个地图直接两点之间直线最短,选择跳下悬崖。当你给它设定物理参数,一次性下坠太高会死亡时,它就跳到左边的平台再继续往下跳,卡规则的极限值。

另外,实验中的地图都是随机生成的,配有指向终点的最慢路线供AI参考,目的是训练出在不同环境都能积极规划速通路线的AI。而用于训练AI的动作数据只有可怜的14分钟,包含奔跑、跳跃、攀爬、上台阶等动作。

之所以要限制数据以及随机生成地图,主要是因为以往训练机器人必须真人采集数据供AI训练,但这样训练出来的AI很死板,遇到练过的题就会做,一旦需要它将学过的技能组合起来解决问题就直接死机摆烂,最终变成在实验室里跑酷很帅,走出实验室就只能发呆。

为了让AI既大胆又真实,实验中有小绿和小蓝2个AI。其中小绿的物理规则很宽松,因此它会做很多大胆的尝试,比如用跳崖来探索速通路线,而小蓝会采用人类身体的设定重走小绿提供的速通路线。如果小蓝死亡,则会让小绿重新规划路线,而小绿不断的试探规则,倒逼小蓝开始从有限的数据集里组合出新的操作来跟上述通路线。比如跳过去并大叹路线,比如当粑着悬崖边跳到另一个悬崖边而不是落到下面平台再选择路线,比如让开发出很多细节操作,比如当直线跳跃距离不够时,小会往左边平台借力登一下。

而这一顿操作之后,团队发现AI仅用四个动作的数据集训练而成功。让AI泛化出多种路线,能处理五十多种不同的地形变化,在复杂环境中还会积极思考新的策略。而且这个训练只用一张A6000显卡,耗时一个月就完成。目前论文已经发表,感兴趣的小伙伴可以了解一下。
《游戏速通攻略:巧用技巧突破关卡,畅享游戏乐趣》

在游戏世界里,想要快速通关可不是件容易的事。今天就来给大家分享一些速通技巧。

首先,熟悉地图是关键。了解各个区域的布局和路线,能让你少走弯路。比如有些关卡中,悬崖是个特殊的存在。合理利用悬崖,有时能找到捷径。

掌握物理规则也很重要。像在某些场景中,不符合物理的操作可能就行不通,要根据实际情况调整策略。

动作数据虽然有限,但要充分利用。奔跑、跳跃、攀爬等动作的组合运用,能帮你应对各种地形。

实验中的随机地图,其实暗藏玄机。多尝试不同路线说不定就能发现新的速通方法。

小绿和小蓝的例子也值得借鉴。小绿大胆探索,小蓝参考其路线并灵活组合操作,我们也可以从中学习,不断尝试新的操作方式。

总之,通过这些方法,不断摸索和尝试,相信你在游戏速通中能取得更好成绩,享受游戏的乐趣。
英伟达AI,游戏,速通,悬崖,物理规则,动作数据,地图,小绿,小蓝,训练
[Q]:英伟达AI玩游戏时是如何卡bug的?
[A]:如直接忽视建议路线,跨过悬崖飞扑落地终点等。
[Q]:AI初代和第二代有什么不同表现?
[A]:初代在悬崖边缘反复试探,二代直接跳下悬崖并卡规则极限值。
[Q]:为什么要限制训练AI的动作数据和随机生成地图?
[A]:避免训练出的AI死板,遇到新问题无法解决。
[Q]:小绿和小蓝在实验中分别起到什么作用?
[A]:小绿物理规则宽松,大胆尝试探索路线;小蓝参考小绿路线并组合新操作。
[Q]:AI是如何利用四个动作的数据集训练成功的?
[A]:通过不断试探规则,泛化出多种路线,处理不同地形变化。
[Q]:训练AI用了多长时间和什么硬件?
[A]:只用一张A6000显卡,耗时一个月完成训练。
[Q]:实验中的地图有什么特点?
[A]:随机生成,配有指向终点的最慢路线供AI参考。
[Q]:目前关于AI训练的论文情况如何?
[A]:目前论文已经发表。
share