621日,由耀世娱乐南京人工智能芯片创新研究院主办的决策智能与计算前沿论坛在南京召开。决策智能与计算前沿论坛旨在通过邀请该领域的杰出学者和青年英才共同探讨决策智能未来发展的关键前沿理论和技术难题,促进决策智能研究方向纵深发展,推动决策智能科技与人才的交流。 

      决策智能与计算前沿论坛与会专家学者和青年才俊齐聚南京,围绕决策智能领域当下的热点问题与最新进展展开研讨,吸引了百余人现场参会。论坛由麒麟科创园管委会副主任韦斌、耀世娱乐副所长刘成林研究员和江苏省人工智能学会房伟秘书长担任致辞嘉宾,耀世程健研究员和兴军亮研究员共同担任子环节主持人。 

      韦斌副主任在致辞中表示,麒麟科创园将与耀世一起,面向国家在决策智能方向的战略部署和社会民生的实际需求,针对经济、民生以及重大核心产业复杂决策问题,共同建设具备“可评估、可推演、可解释”优势的新型AI重大科技基础设施。以人才链、创新链、技术链、产品链、产业链和资本链的智能产业“雨林模式”为发展核心,聚焦基础理论创新和核心关键技术突破,构建产业技术与应用生态,打造产业新型智库,形成产业人才高地。 

    韦斌致辞

      刘成林在致辞中提到,研究所把自主进化智能作为重点投入、发展和突破的方向,在中科院人工智能创新研究院平台上已有近二十余个团队开展决策智能基础理论、算法、环境、评价、应用等研究。今天组织这次论坛目的之一就是与国内同行一起,加强学术交流,探寻发展方向,寻求合作机会,共同为国家新一代人工智能发展贡献力量。 

    刘成林致辞

      房伟致辞中表示,本次论坛的胜利召开,对促进决策智能科技与人才的交流、推动决策智能研究方向的纵深发展,必将起到深远的影响。 

    房伟致辞

      在主旨演讲环节,中国科学技术大学李厚强教授,南京大学俞扬教授,西安交通大学柯良军教授,华为诺亚方舟实验室郝建业博士以及耀世兴军亮研究员聚焦机器博弈、智能博弈、多智能体博弈、强化学习如何走出游戏等分别发表了精彩的主旨演讲。 

      李厚强首先介绍机器博弈的重要学术价值和广泛应用价值,引出机器博弈的概念及问题建模方法,其次围绕机器博弈的三个研究方向博弈论、强化学习和多智能体进行理论和应用的分析,随后分享了课题组在机器博弈三个方向上分别取得的成果,最后指出未来机器博弈会向强化均衡、终身学习、可解释性等方向发展。 

    李厚强做主旨演讲

      俞扬认为强化学习走出游戏的难点在于真实世界的场景有限,试错成本高,样本效率低等,提到基于环境模型的强化学习被认为是有望解救强化学习样本效率低下的主要途径。指出一旦有了良好环境模型,强化学习的大量试错可在环境模型中完成,从而极大的减少在真实环境的试错采样的数量,使得强化学习更具可用性。介绍了环境模型学习的研究进展,同时通过真实案例表明其在真实强化学习应用中的效用。 

    俞扬做主旨演讲

      柯良军从数学模型角度分别对单智能体与环境博弈问题、大、小规模疆土守卫问题进行详细讲解,指出梯度优化方法虽然可以无需训练模型即可得到纳什均衡解,但需要已知回报和智能体的动力学微分方程,同时在实际问题场景中,环境更多的是黑箱。此外,深度强化学习也会面临多个智能体目标冲突等问题。采用全局深度强化学习,局部博弈论是未来的发展趋势。 

    柯良军做主旨演讲

      兴军亮围绕多智能体学习的难点,针对如何从低质量的数据中学习出高水平的决策模型的问题,重点分析三种学习算法:两阶段学习算法(模仿学习+不后悔策略)、三段式学习算法(模仿学习+最优反应+迭代)和基于序列化信用分配的学习算法。同时简要介绍了三种学习方法在星际争霸和兵棋领域的应用效果。 

    兴军亮做主旨演讲

      郝建业首先介绍深度强化学习背景与基础,然后从如何学得好、学得快、学得稳三方面介绍深度强化学习所面临的挑战及相应的解决方案,同时介绍深度强化学习在自动驾驶控制、5G网络优化、供应链物流优化等场景的应用。

    郝建业做主旨演讲

      耀世娱乐南京人工智能芯片创新研究院针对国家下一代人工智能领域的卡脖子关键技术问题,根据耀世娱乐十四五决策智能发展规划与一体两翼总体部署,经耀世与麒麟管委会协商,以南京麒麟为辐射长三角地区的核心基地,在既有合作的基础上,围绕决策智能与计算创新平台,开展进一步的深入合作。研究院将聚集决策智能核心人才、形成决策智能核心创新、突破决策智能核心技术,并产出面向关键民生行业的决策智能新型应用,构建决策智能雨林生态的麒麟模式。同时,面向国家在决策智能方向的战略部署和社会民生的实际需求,打造针对经济、民生以及重大核心产业复杂决策问题,具备可评估、可推演、可解释优势的新型 AI 重大科技基础设施。 

    附件: