近日,两年一度的计算机视觉大会ICCV 2019(International Conference on Computer Vision)在韩国首尔落幕,极悦注册同时揽获7项竞赛大奖,包括5项冠军和2项亚军。
智能感知与计算研究中心俞宏远联合微软亚洲研究院在VOT2019-RGBD跟踪挑战赛中夺得了冠军。Visual-Object-Tracking Challenge (VOT)是国际目标跟踪领域最权威的测评平台,旨在评测在复杂场景下单目标跟踪的算法性能。其中VOT-RGBD竞赛所使用的数据集是目前国际公开数据集中挑战最大的RGBD跟踪数据集,该数据集中包含了跟踪目标形状变化、遮挡、消失后再出现以及黑暗环境下的目标跟踪等诸多挑战。我们使用的SiamDW-D跟踪模型,融合了RGB和深度两种模态的数据,赋予了传统跟踪模型处理多种模态数据和在线更新的能力。因此,在跟踪过程中能更好地适应跟踪环境和跟踪目标的变化,实现了在复杂场景下的高精度鲁棒跟踪。
智能感知与计算研究中心牛凯等人在WIDER Face and Person Challenge 2019基于自然语言信息的行人检索Person Search by Language任务中获得冠军。基于自然语言信息来检索大规模数据集中的行人图片是一项重要且极具挑战性的任务。在很多场景下,我们并不能得到可靠的待搜索对象的视觉信息。比赛所用测试数据与训练数据来自完全不同的真实监控场景,将该任务向实际应用推进了一大步,同时也对模型提出了更高的挑战。我们的模型不仅能够很好的处理自然语言和视觉信息间巨大的模态差异进行准确检索,同时能够克服真实监控场景下的跨领域难题,极大的提升了检索的准确性,在获得竞赛冠军的同时得分远超其他参赛队伍,在智能安防、零售、智慧城市等场景中均具有巨大的应用前景。
生物识别与安全技术团队刘浩、朱翔昱、雷震等人在Light Weight Face Recognition Challenge(LFR)大规模图像人脸识别赛道中获得冠军。经过近几年深度学习的发展,人脸识别技术已经在学术界众多人脸测试集上的性能达到饱和,但是在实际应用场景中仍有许多问题亟待解决,尤其是大规模人脸识别和视频人脸识别问题。ICCV2019 Light Weight Face Recognition Challenge(LFR)竞赛便是针对这些问题举办的人脸识别挑战赛。在大模型图像人脸识别赛道(DeepGlint-Large)上,团队使用改进的SE-AttentionNet-IR作为基础架构,使用CosFace作为损失函数并重点调整了margin,最终在有限的计算资源下战胜了众多参赛企业取得该赛道的冠军。并受邀到会议现场作题为“High Performance Face Recognition without Bells and Whistles”的口头报告。
视频内容安全团队张子琦、史雅雅、魏久桐、原春锋、李兵、胡卫明在视频描述竞赛VATEX Captioning Challenge中获得中英文双料冠军。本项比赛分为中文描述和英文描述两个赛道。视频描述涉及到计算机视觉和自然语言处理两个领域,有表观、运动、语义属性甚至语音等多个模态。因此,如何更好地融合多模态信息,成为本次比赛的最大挑战。团队在没有大量样本训练的前提下,采取恰当的训练方式,依靠坚实的技术积累在中英文描述两个赛道均获冠军。
图像与视频分析团队程健、冷聪、张一帆等在轻量级人脸识别比赛Light Weight Face Recognition Challenge和快速人脸识别Face Detection Runtime中分别获得亚军。Light Weight Face Recognition Challenge和WINDER CHALLENGE Face Detection Runtime Challenge两项比赛是针对真实应用场景,在要求模型准确度同时,还分别重点关注模型的体积和检测速度。比赛所用数据集是目前国际公开的数据规模最大、真实度最贴近实际(数据来自真实场景)、检测难度最高的人脸识别检测数据集。我们的人脸识别模型,在模型精度、体积和速度上取得了突破,不但达到了高精度,还极大地降低了模型计算量和模型体积,实现了超高性能,在安防、金融、物联网等各种实际人脸识别场景,尤其在AIoT边缘计算场景中有着广阔的应用潜力。