鸟人玩垃圾游戏怎么玩
1、图片源自百度百科,作者|,译者|出品|科技大本营,:100,现在说起《愤怒的小鸟》游戏,要把人的回忆一下拉扯到差不多十年前了。它是一款当时一经推出就广受欢迎的游戏,玩家可以用弹弓把若干只小鸟弹射出去,目标是摧毁所有绿色的猪,并获得尽可能高的分数,经常有很多猪藏在复杂的结构之中。由于顺序的决策、不确定的游戏环境、复杂的状态和动作、功能特性不同的鸟,以及最佳弹射时机等因素,都使得《愤怒的小鸟》很难拥有一款好的代理。
2、近日,来自研究者发布论文《-》称,他们采用,-,算法实现了一款深度强化学习应用,可以用来玩《愤怒的小鸟》。他们的目的之一是创造一个游戏智能体,可以基于之前玩家在前21关的游戏记录来进行游戏闯关。为了实现这一目的,他们收集了游戏记录的数据集,为游戏代理提供了多种多样的方案。游戏中需要做很多有关顺序的决策,两次弹射之间会相互影响,每一次弹射的精准度也很重要。
3、例如,一次糟糕的决策可能会导致一只猪被若干个物体卡住。因此,为了更好地完成游戏中的任务,游戏代理要有基于决策对结果进行预测和模拟的能力。
4、以下为《-》论文的内容概述:相关工作2012年,首次举办了《愤怒的小鸟》大赛,随之出现了很多款游戏代理。在这里介绍两款比较优秀的代理,第一个是由来自捷克技术大学的队伍所开发的2014,该游戏代理至今保持着第三名的位置。就像他们在论文中描述的,他们的主要思想是基于当前环境、可能的弹射轨迹和鸟的类型来制定最佳策略。第二个是由滑铁卢大学和在2017《愤怒的小鸟》大赛中共同开发的智能玩家,他们的代理目前排在第16位。
5、据称,该游戏代理基于人工调试过的结构分析,即在多个策略中做选择,开发了一项简单的多策略能力。他们使用了机器学习算法学习决策制定能力。背景介绍为了解决《愤怒的小鸟》中的顺序决策问题,我们基于每个时间步长来考虑游戏环境ε。在每个时间步长,代理都会得到观察值,然后从可能的动作集中选择一个动作。
鸟人玩垃圾游戏怎么玩
1、接下来会得到奖励项。接下来代理的目标是基于下面的公式将奖励项最大化:在上面的公式中,为当前状态,为所选的动作,为奖励项,是权重系数,来决定奖励项对未来结果的重要性。现在我们定义最佳值如下:。在每个状态选择最大值所对应的动作,我们就可以获得最佳策略。
2、算法理论基础。为了模拟最佳-函数,我们使用深度神经网络作为非线性函数逼近器,我们定义一个逼近函数:其中,为网络进行第次迭代的权重。如论文中所说,将强化学习算法与非线性函数逼近器,如神经网络,结合使用会不稳定,甚至产生偏移,原因如下:)序列中观察值之间的关联性;)值与值之间的关联性;)该方法对值的变化极其敏感。-试图用技术解决第一个问题,即经验回放。
3、该技术通过将所收集的数据随机化,去除了序列中观测值之间的相关性。我们对经验的定义如下:。其中,为时刻的状态,为时刻采取的动作,为+1时刻的奖励,为执行后的状态。
4、我们将经验保存在经验集中:。接下来,我们从经验集中抽样出部分经验,在网络中对值进行更新。
5、为了解决第二个问题,需要用到下面的损失函数:。其中,为迭代次数,为权重系数,为实时网络的权重,为目标网络的权重。接下来,我们的目标如下:原始的算法对动作选择和动作表现的评估两个步骤都采用了最大值,这很可能导致过度估计。