【智能决策论坛系列解读】复杂决策系统中的多智能体学习问题----耀世娱乐

新闻中心

学术活动

【智能决策论坛系列解读】复杂决策系统中的多智能体学习问题

发布时间: 2021-01-25

【字体：大中小】

　　2020年9月19至20日，由耀世娱乐主办的首届智能决策论坛在线上成功举办。论坛由耀世娱乐耀世所长徐波担任论坛主席，邀请了国内外17位智能决策领域的顶尖专家和科研新秀围绕智能决策相关研究方向和应用进行了精彩的学术报告和线上探讨。其中，伦敦大学学院汪军教授、清华大学交叉信息科学院助理教授张崇洁、上海交通大学电子信息与电气工程学院助理教授温颖、华为伦敦实验室访问研究员杜雅丽和伦敦大学学院博士田政等多位嘉宾的报告均与多智能体学习理论和算法相关，是本次论坛报告和讨论的热点话题之一。

　　多智能体学习，顾名思义，即由计算机控制的人工智能学习如何在运行着多个智能体的环境中进行智能决策，并通过与其他智能体的合作或竞争达到自己或群体的目标。多智能体学习涉及合作、竞争或是二者混合的环境和任务类型，几乎涵盖人类社会中的各类重要场景，在学术研究、智慧城市、经济发展、商贸博弈和国防军事等方面均具有重要的研究和应用价值。

　　多智能体学习旨在解决涉及多个智能体之间的协同序贯决策问题，其中每个智能体采取某一策略后带来的环境改变和奖励大小都将受到其他所有智能体联合行为的影响，因此无论是问题的建模还是求解都十分困难，具体表现在以下三方面：

一、复杂决策系统的表示和建模问题

　　如何对复杂决策系统进行合理表示和建模将直接决定多智能体学习的效果和效率。在深度学习领域，研究人员经常使用深度神经网络来拟合复杂的函数，因此一个很自然的想法便是将智能体策略用神经网络进行建模，并通过深度学习技术指导多智能体学习，这其中的关键就在于如何设计深度神经网络结构。例如多个智能体是否要构建成相同的结构？同构智能体学习效率高、计算量小，但这种方法不够灵活，应用范围小，要求智能体类型相同，遇到种类复杂的对象就可能失效。异构智能体可以表示多种不同类型的智能体，但对算力和算法有着较高要求。另外，多个智能体在学习过程中是以中心化的方式统一进行学习，还是以去中心化的方式各自学习？如何解决算法的可拓展性和贡献分配问题？

　　在智能决策论坛中，张崇洁提出一种值函数分解的方法，即为每个智能体维护一个价值函数，并利用集中训练分散执行的模式，既解决了可拓展性的问题，又通过神经网络梯度反向传播的方式为每个智能体做了隐式的贡献分配。杜雅丽针对多智能体数量动态变化的可扩展性问题，提出了一种新颖的空间网格化结构来组织多个智能体，每个网格单元对应一个智能体，并采用编码器-解码器网络作为策略网络。这种体系结构的主要特征是：学习所有智能体的空间联合表示，并输出网格方式的动作，每个智能体占用一个网格单元并从网格中采取动作，而空网格将被联合策略掩盖，以达到灵活控制智能体数量的目的。汪军教授提出了一种让多智能体学习隐性沟通的PBL算法，该算法中的每个智能体包含了两个模块：决策模块和信念模块。决策模块负责制定策略并选择动作。由于智能体只能通过动作来传递信息，所以决策模块制定的动作不仅需要配合队友共同完成任务，还需要将队友缺失的关键信息用动作传递出去。而信念模块则负责对队友做出的动作进行推断，估计动作背后队友想要传递的信息。

张崇洁作报告

杜雅丽作报告

汪军作报告

二、多智能体学习的目标评价和设定问题

　　若想让多个智能体进行有效的学习，就必须要明晰学习的目标，并对智能体的实时策略进行准确地评估，从而确定智能体的策略是否正朝着目标方向逐渐提升，以及是否达到最优。最优解设定和策略评估问题因此成为多智能体学习中必须解决的重要一环,而博弈论则为其提供了可能的解决方法。

　　使用博弈论指导多智能体进行学习并非一条坦途，最核心的问题之一就是如何确定智能体的学习目标并客观地评价智能体的水平？博弈理论中目前常用的评估方式包括纳什均衡、竞赛积分（ELO）机制和模仿者动态机制等，其中被普遍使用的纳什均衡本质上具有不唯一、不具备动态性且仅适用于二人博弈的缺点；ELO机制不能处理相克关系不传递的博弈，而且也没有动态特性；而模仿者动态机制仅适用于参与者较少的零和博弈情景，均衡点不唯一。

　　在智能决策论坛中，安波把博弈论在人工智能方面的解决方案总结为两种：一是完全基于博弈的，即把整个问题建模成一个博弈模型，然后求其均衡解，这通常是一个大规模的优化问题，因此需要运用运筹学和优化的技术；二是利用强化学习的方法，当问题不能被很好地建模为一个博弈过程或非凸问题，且难以使用传统优化方法求解时，采用强化学习是合适且必要的。

安波作报告

三、多智能体学习的计算优化和求解问题

　　在多智能体学习过程中，可以延续单智能体强化学习的思路，使多个智能体在环境中进行探索，彼此合作或是竞争完成某些任务，并获取环境反馈的奖励。一般而言，合作的智能体之间试图通过多人协作来较快地完成任务或是获取更大的奖励，而竞争的智能体之间则通过剥削对手来使得己方奖励最大化。在一个回合或固定训练步数后，根据智能体获得奖励值的大小对智能体的策略进行更新，奖励值越大说明策略越好，那么在遇到同样状态时采取该动作的概率就相应提升，反之亦然。通过长时间训练，智能体的策略不断提升，合作或竞争的意识逐渐增强，直到最终策略收敛。多智能体强化学习整体思路清晰，但实际操作起来却也无法避免复杂性高、计算量大的困扰，需要在对问题的良好表示和建模的基础上，明晰学习目标和策略评估手段，进一步对学习算法进行优化，并采用特定工程技术对问题进行快速求解。

四、总结与展望

　　面对上述复杂决策系统的三大问题，我们在结合博弈论和强化学习分别进行突破的同时，也要思考全新的多智能体学习与决策途径。一条可行之路是让多智能体决策系统进行自主进化学习：根据群体智能的水平自动选取一个小目标，并根据小目标选择合适的训练对手，然后通过博弈论指导多智能体强化学习进行训练并达到初步目标后，再重新选取下一个小目标。如此循环往复，最终完成群体智能的自主进化，从而实现具有较高水准的复杂智能决策。

附件：