上海交通大学邓子新团队—真相揭秘,记者通报!
本文是对AAMAS2023入选论文IsNashEquilibriumApproximatorLearnable的解读。该论文由北京大学前沿计算研究中心邓小铁课题组与上海交通大学、加拿大米拉人工智能中心、英国国王学院、伦敦大学学院等机构合作完成。第一作者为段志坚。邓小缇课题组博士生。
在本文中,我们提出使用函数逼近方法来预测纳什均衡,并研究这些纳什均衡逼近的泛化误差和可学习性。
论文链接
01
介绍
传统博弈论侧重于求解单个博弈的纳什均衡,但当需要求解多个相似博弈时,传统算法无法通过历史数据信息加速求解纳什均衡。
在本文中,我们提出使用函数逼近方法构建纳什均衡逼近神经网络,以博弈矩阵作为输入,预测博弈的纳什均衡解。纳什均衡逼近器最大的优点是可以快速、批量地求解纳什均衡,因为逼近器的计算过程只是神经网络的简单前向计算,而神经网络的计算可以为因为。使用GPU并行化加速。
本文主要从理论上研究基于函数逼近的纳什均衡逼近器的泛化误差和可学习性,在应用方面,我们通过实验证明了纳什均衡逼近器的效率和潜在的适用性。这是一种传统的近似纳什均衡求解算法,提供快速初始化。
02
纳什均衡逼近器
我们考虑计算一般博弈的纳什均衡,其效用矩阵遵循固定的未知分布。在一组纳什均衡策略下,每个参与者无法通过单方面改变策略来获得更高的效用。例如,有一个石头、剪刀、布的,其中唯一的纳什均衡解是每个玩家以1/3的概率执行石头、剪刀、布的任一动作。
我们构建了一个纳什均衡近似神经网络,以效用矩阵作为输入来预测博弈的纳什均衡解。可以使用标准机器学习方法来训练近似器。本文提出的学习方法是基于纳什均衡近似误差的批量随机梯度下降算法。纳什均衡逼近误差可以用来衡量一组产品组合策略逼近纳什均衡的程度。这是任何玩家策略的最大可用性或动机,其中玩家策略的可用性允许玩家最大程度地改变他的策略。效用能增加多少?由于纳什均衡逼近误差几乎处处可微,因此可以将其用作目标函数,并且可以使用标准批量随机梯度下降算法来优化逼近参数。
03
理论结果
在理论推导方面,采用纳什均衡逼近法来衡量逼近器的性能。
首先,我们推导纳什均衡预测器的泛化误差。误差衡量纳什均衡预测器在测试集上的预期性能与其在训练集上的平均性能之间的差异。事实证明,给定0,1,我们至少满足1-的概率
其中表示逼近器h在分布D上的期望性能,表示逼近器在训练集S上的平均性能,m表示训练集大小,是距离下逼近器函数空间H的r覆盖数。文章中对此进行了定义。从这个结论我们看到,随着训练集样本数量的增加,泛化差距可以无限接近0,从而保证了泛化能力。
此外,通过假设纳什均衡逼近器表示神经网络结构的能力是有限的,即有限的,我们推导出纳什均衡逼近器满足不可知的PAC并且是可学习的给定训练集,0,1。大小为遇见了。
如果基于纳什均衡误差,采用经验误差最小算法,则可以至少以1-的概率求得。
这个结论表明,当训练样本数量足够大时,有可能以高概率学习到足够接近最优逼近器的模型。
04
实验
通过实验,我们证实纳什均衡逼近器在求解速率上是有效的。我们首先发现,经过训练的逼近器可以在测试阶段在很短的时间内批量生成大量的近似解。另一方面,现有算法需要大量时间才能达到显着水平的近似。上图是我们实验中矩阵博弈的实验结果。
此外,我们还发现了近似器的应用。我们可以使用近似器快速计算出的纳什均衡近似解作为当前两人博弈近似均衡算法的初始化,以加速这些算法的收敛结果。由于这些算法保证输出比初始解决方案更好的解决方案,因此提供良好的初始化总是有用的。实验结果如上图所示,显着加快了TS算法[1]和DFM算法[2]的收敛速度,从而将数据驱动算法的效率与提供的理论保证结合起来。与传统算法
参考
[1]HaralamposTsaknakis和PaulGSpirakis2007近似纳什均衡的优化方法SpringerWeb和互联网经济学研讨会,42-56。
[2]ArgyriosDeligkas、MichailFasoulakis、EvangelosMarkakis2022APolynomial-TimeAlgorithmfor1/3-ApproximateNashEquilibriainBimatrixGamesinthe30thAnnualEuropeanAlgorithmsSymposium,ESA2022,2022年9月5-9日,柏林。/德国波茨坦LIPIcs,第244卷,ShiriChechik、GonzaloNavarro、EvaRotenberg和GrzegorzHermanEdsSchlossDagstuhl-Leibn
图形|段志坚
北京大学多元实验室
对于上海交通大学邓子新团队的相关内容,以及邓小铁 上海交通大学的详细信息,今天就解到这儿了,希望对各位网友有所帮助。
发表评论