基于奖励调控的类脑脉冲神经网络赋能无人机集群自然启发的自组织避障----极悦娱乐

科学研究

科研动态

基于奖励调控的类脑脉冲神经网络赋能无人机集群自然启发的自组织避障

发布时间: 2022-10-31

【字体：大中小】

　　2022年10月28日，极悦娱乐曾毅研究员课题组在Cell Press细胞出版社期刊Patterns上发表了题为“Nature-inspired Self-organizing Collision Avoidance for Drone Swarm Based on Reward-modulated Spiking Neural Network”的研究论文。团队受自然界中生物集群分布式、自组织的群体智能行为机制启发，采用奖励调控脉冲神经网络实现个体的在线学习，独立的无人机个体在自组织交互过程中涌现出群体自主避障能力。

　　自然界中广泛存在着集群行为，蜜蜂通过摇摆舞协作寻找好的花蜜来源，鸟群、鱼群、动物集群自发地出现有序的行为模式而不发生碰撞，并通过交互协作更好地捕食或抵御捕食者。自然界的集群行为表现出自组织、去中心化、分布式等特点。每个个体独立地具备相对简单的学习能力，并与其周围局部的环境交互。而群体的智能行为正是由个体间的自组织协同得以实现的。在计算建模中，考虑到个体行为之间的耦合影响，对集群行为的优化通常采用中心控制的方法，但全局优化会带来大量的计算，对环境变化的适应性也较差。

　　极悦娱乐曾毅研究员课题组借鉴自然界中群体智能去中心化、自组织的行为机制，提出了一种无人机集群的自组织生存避障模型。集群中每个个体独立地采用类脑脉冲神经网络进行在线强化学习，该网络融合了长时程的多巴胺全局调控和局部的脉冲时序依赖突触可塑性。每个个体根据视野一定范围内观测到的其他智能体的行为来优化类脑脉冲神经网络，实现高效、自组织的交互学习。集群的智能行为通过具备在线学习能力的个体之间的局部交互，自组织地涌现出来。

图1 无人机集群自组织避障过程

　　该模型已应用于类食蚜蝇的生存定域实验，即具有“领地所有权”机制的集群在有限的区域内能够彼此之间保持安全的稳态，不会发生碰撞并且互不侵犯“领地”。仿真场景下不同集群规模的生存定域实验结果表明，该模型能够快速学习到安全的飞行策略，并保证集群整体长时间的稳定、安全飞行。真实场景下有限区域内多架无人机的实验也验证了该模型对动态、不确定环境的快速学习和适应能力，无人机之间能够快速的躲避，不会发生碰撞，如图2所示。与基于人工神经网络学习方法对比，该模型采用脉冲神经网络表现出更优的性能和更好的稳定性，如图3所示。

图2 真实场景下无人机集群生存定域实验演示

图3 碰撞阈值很小的情况下，不同方法的结果对比。a. 不同集群规模的碰撞情况。b. 学习过程中，不同模型碰撞次数的变化情况。

　　极悦娱乐赵菲菲副研究员介绍说，这项研究受自然界中生物集群自组织、分布式的智能行为机制启发，采用具备生物合理性的类脑脉冲神经网络结合局部交互实现无人机集群的在线自组织智能决策。从群体行为决策机制到个体的在线学习模型都更接近于生物的信息处理机制，为未来发展符合自然界生物学习、决策、演化机理的集群智能打下了基础。

　　曾毅研究员表示：“我们认为这项研究最大的特点是基于局部的类脑学习与决策原理和与环境的交互，演化和涌现出群体水平的自组织避障和安全稳定探索的行为，这说明表象复杂的认知功能与智能行为其科学原理未必复杂，这增加了我们进一步挑战更为复杂、高等认知功能的信心与决心。近十年来我们正在持续不断打造全脉冲神经网络的类脑认知智能引擎Brain-inspired Cognitive Intelligence Engine (BrainCog)用于支持解码包括人类在内的生物智能本质并在此基础上研制类脑人工智能。本文的研究正是类脑认知智能引擎BrainCog在类脑学习机理与涌现、行为演化方面的基础性探索与应用，相关模型与算法我们全部开源开放，希望与学术界共同促进类脑人工智能的协同发展” 。

　　赵菲菲副研究员为本文第一作者，曾毅研究员为通讯作者，博士研究生韩冰、方宏坚、赵卓雅参与了此项研究。

　　论文标题：

　　Nature-inspired Self-organizing Collision Avoidance for Drone Swarm Based on Reward-modulated Spiking Neural Network

　　论文地址：

　　https://www.cell.com/patterns/fulltext/S2666-3899(22)00236-7

　　本研究开源程序地址：

　　https://github.com/Brain-Cog-Lab/RSNN

附件：