耀世32篇论文被第38届AAAI人工智能会议接收

发表日期：2024-01-05 【大中小】【打印】【关闭】

　　日前,中国计算机学会(CCF)推荐的A类国际学术会议 AAAI公布论文接收结果。AAAI(AAAI Conference on Artificial Intelligence) 由国际先进人工智能协会主办,是人工智能领域的顶级国际学术会议之一。第38届AAAI人工智能年度会议将于2024年2月在加拿大温哥华举行。本文将介绍耀世娱乐团队在AAAI 2024中录用的32篇论文(排序不分先后)。

1. 语义概念引导下的集合预测用于多样化视频描述

Set Prediction Guided by Semantic Concepts for Diverse Video Captioning　

论文作者:卢一帆,张子琦,原春锋,李鹏,王炎,李兵,胡卫明

研究介绍:现有多样化描述方法使用独立的“视频-单句描述”对作为训练样本,不同描述间缺乏交互,描述集合内多样性的没有被充分挖掘。在本工作中,我们提出了基于语义概念引导集合预测(SCG-SP, Semantic-Concept-Guided Set Prediction)的多样化视频描述方法。首先,我们将视频多样化任务形式化为一个集合预测问题,使用模型直接拟合视频的人工标注的描述集合,实现集合层面的建模。随后,我们考虑了描述多样性的来源:语义概念(目标、行为、场景等)。不同的语义概念组合代表了对视觉内容的不同解读,因此我们使用语义概念引导集合预测,进一步提升生成描述的语义多样性。语义概念引导包含两方面:1)对视频中的语义概念进行检测,利用其得到语义特定的视频编码;2)增加语义概念预测的辅助任务,引入额外语义监督。我们的方法在多个视频描述数据集上取得了先进表现。

2. 基于强化学习的图像信号处理参数顺序优化方法

RL-SeqISP: Reinforcement Learning-based Sequential Optimization for Image Signal Processing

论文作者:孙鑫雨,赵治坤,魏莉莉,郎丛妍,蔡明轩,韩龙飞,王隽,李兵,郭宇轩

研究介绍:硬件图像信号处理(ISP)旨在将输入的RAW图转换为RGB图像,它由一系列处理模块组成,且每个模块都包含了许多可调的参数。目前,ISP参数大都由成像专家根据图像质量和特定任务下的性能指标进行手动调整,这一过程耗时耗力,而且会受到人类视觉主观偏好影响。此外,每个参数的变化与输出性能指标之间的关系是复杂的非线性函数,所以优化如此大量的ISP参数极具挑战性。受人类专家的序列化调优过程的启发,我们提出了一种序列化ISP参数优化模型(RL-SeqISP),它利用深度强化学习来预测不同成像应用的所有ISP参数。我们提出的模型通过融合来自图像特征空间和参数空间的信息来逐步提高图像质量。此外,为了避免ISP参数陷入局部最优,我们引入动态参数优化模块。与其他的方法相比,RL-SeqISP模型的优点及效率通过在广泛的下游任务上的综合实验得到证实。这里特别需要指出的是即使只使用10%的训练数据,我们的模型在两个视觉分析任务上也比其他SOTA方法平均高出7%的mAP。

3. 动态图片利用的多模态摘要方法

DIUSum: Dynamic Image Utilization for Multimodal Summarization

论文作者:肖敏,朱军楠,翟飞飞,周玉,宗成庆

研究介绍:已有的多模态摘要工作都在假设图片一定对摘要或多或少有帮助的前提下,结合图片信息生成摘要,而忽视了不是所有样本都可以帮助提升摘要质量的问题。因此,我们提出了一个动态图像利用框架,以动态选择用于多模态总结的图像。首先,我们提出了一个图像选择器,根据多模态特征对每个图像进行评分。该图像选择器预测图像是否有助于生成比单模输入更高质量的摘要。具体而言,我们使用自我标记方法优化图像选择器,该方法根据多模输入是否有助于生成比单模输入更高质量的摘要来定义图像的贡献。然后,在图像选择器的指导下,解码器动态地利用多模态信息生成摘要。通过这些步骤,模型可以获取对生成摘要更有效的图像信息,并为摘要提供更好的多模态信息。

通过实验结果,对图片动态利用的方法均在两个公开数据集上拿到了最好的(State of Art, SOTA)的性能。这也进一步证明了我们的初衷,即不同样本对不同模态的需求是不一样的。

图1 模型框架。“TxtEnc”和“ImgEnc”分别代表文本和图像特征提取器。“Selc”代表图像选择器

图2 在MMSS数据集上的实验结果　　　　　　　　

4. 神经群体编码启发的连续旋转群等变网络

Continuous Rotation Group Equivariant Network Inspired by Neural Population Coding

论文作者:陈智强,陈阳,邹晓龙,余山

研究介绍:群体编码在生物神经元中是一个普遍的机制,比如海马中的‘place cell’、初级视觉皮层的方向、颜色、朝向等神经元都是通过群体编码的方式来编码信息的。钟型调谐曲线(bell-shaped tuning curve)对于神经群体编码通过离散的最优刺激来编码连续信息是至关重要的。受此启发,我们通过高斯调制将钟型的调谐曲线嵌入到离散的群等变卷积中,从而实现使用离散群卷积达到连续群等变的目的。受益于高斯调制,卷积核在几何维度上(如位置维度、方向维度)也具有平滑的梯度,这使得可以使用稀疏的带有可学习几何参数的权重来生成群等变卷积核,从而使得网络既具有竞争性的性能又具有极高的参数效率。实验结果表明:1)在MNIST-rot上相比于之前的方法,我们的方法能够使用更少的参数(少于25%)达到极具竞争力的性能;2)尤其是在小样本学习下,我们的方法能够得到更加显著的性能提升(24%);3)同时在更多的数据集(如MNIST、CIFAR和ImageNet)和不同的网络架构上(平直网络架构和ResNet架构)都具有不错的旋转泛化能力。

5. 从静态域到事件域的脉冲神经网络知识迁移策略

An Efficient Knowledge Transfer Strategy for Spiking Neural Networks from Static to Event Domain

论文作者:何翔,赵东城,李杨,申国斌,孔庆群,曾毅

研究介绍:

脉冲神经网络 (SNN) 因为其事件驱动的优势而著称,时间上的特征使得SNN适合处理事件数据。然而事件数据往往规模较小,从而限制了其进一步发展。

相比而言,静态的RGB数据集规模较大且更易获取。尽管静态的图片能为事件数据提供有价值的空间信息,然而由于事件数据与静态图片是两种不同的模态,它们存在着固有的域差异.

为了减小域差异,从而优化SNN在事件数据上的表现,我们主要从两个方面来进行解决:第一是特征分布,第二是训练策略。对于特征分布,我们设计了知识转移损失函数,其包括域对齐损失和时空正则化。域对齐损失通过减少静态图像和事件数据之间的边缘分布距离,来学习和获取域不变空间特征。时空正则化为域对齐损失提供动态调整的系数,以更好地学习数据中的时间特征。在训练策略方面,我们提出了滑动训练策略,即在训练过程中用事件数据概率性地逐步替换静态图像输入,从而平滑地减少知识转移损失的作用,使训练过程更加稳定。在三个数据集上的实验结果充分表明了所提方法的有效性。

相关链接:

10. 基于时变反演扩散模型的音乐风格迁移

Music Style Transfer with Time-Varying Inversion of Diffusion Models

论文作者:李思霏,张宇欣,唐帆,马重阳,董未名,徐常胜

研究介绍:随着扩散模型的发展,文本引导的图像风格迁移已经展示出高质量可控的结果。然而,利用文本进行多样化的音乐风格迁移面临着严峻的挑战,主要是由于可用的匹配的音频-文本数据集的有限性。音乐作为一种抽象而复杂的艺术形式,即使在同一种风格中也表现出较高复杂性,因此准确的文本描述具有挑战性。本文提出了一种能够使用最少数据有效捕捉音乐属性的音乐风格转换方法。我们引入了一种新颖的时间变化的文本反演模块,以精确捕捉不同层次的梅尔频谱特征。在推理过程中,我们提出了一种减少偏差的风格化技术,以获得稳定的风格化结果。实验结果表明,我们的方法可以转换特定乐器的风格,并结合自然声音来创作旋律。

相关链接:

11.基于复合文本监督的提示学习

Compound Text-Guided Prompt Tuning via Image-Adaptive Cues

论文作者:谭淏、李俊、周亦庄、万军、雷震、张祥雨

研究介绍:随着大规模视觉-文本预训练的出现,视觉-文本模型在下游任务中展现出强大的泛化能力。然而:1)现有的基于提示学习的微调框架需要对所有类别的文本输入进行并行化处理,当目标数据集含有大量类别时,会造成巨大的显存消耗;2)此外,现有工作需要在提示输入中包含类别名称,在处理模糊类别名时表现不佳。为了解决这些不足,我们提出使用复合文本引导提示学习,显著减少了显存需求,并获得了更好的性能。具体而言,我们引入文本监督来约束提示向量的优化,以带来两个好处: 1)在推理阶段,模型不再依赖预定义的类别名集合,实现了更灵活的提示输入;2)减少了文本端的输入数量,从而显著降低显存消耗。具体而言,我们发现复合文本监督(即基于类别的监督和基于内容的监督)十分有效,它们分别提供了类间可分性和类内多样性。此外,我们还设计了一个连接器模块来桥接文本与视觉模态,促进提示向量与视觉特征的对齐。我们在少样本图像识别和域泛化任务上进行了广泛的实验,证明了所提出的方法以较低的训练成本实现了更优的性能。我们希望这项工作能够启发更丰富、通用的文本监督,以进一步增强提示微调在更广泛下游任务上的表现。

代码地址:

12. WaveNet:基于图谱小波的非平稳图信号处理

WaveNet: Tackling Non-Stationary Graph Signals via Graph Spectral Wavelets

论文作者:杨智睿,胡羽蓝,欧阳晟,刘敬宇,王书强,马喜波,Wenhan Wang,Hanjing Su,刘勇

研究介绍:在谱图神经网络的研究中,多项式方法在基于拉普拉斯矩阵的滤波器设计上占据主导地位。然而,由拉普拉斯矩阵析取的多项式组合在信息传递中存在一定的限制(如过度平滑),并且多数谱图神经网络采用的多项式基也会导致图谱信号高频信号的丢失。此外,本研究发现,即使增加多项式阶数也无法改变这种情况,这意味着基于多项式的模型在面对高频信号时存在一定的缺陷。为解决这些问题,本研究打破了多项式方法在谱图神经网络设计中的主导地位,并为研究人员引入了一种新的视角。首先,本研究在谱图信号上采用多分辨率分析,证明了小波对高频信号的强大拟合能力。然后,本研究利用尺度函数在图中重构谱信号。进一步,本研究还采用图像图表实验、节点分类实验以及合成玩具实验证明了所提方法在学习复杂滤波器方面的有效性、性能优越性以及细小成分捕捉能力的高效性。最后,本研究还对学习到的滤波器进行了可视化,验证了真实世界数据集的真实滤波器的复杂性。

图1 WaveNet的架构示意图。信号重构过程基于小波基,本研究利用Haar小波在图数据上进行滤波。

图2 BernNet和WaveNet学习的滤波器示意图。WaveNet表现出了比BernNet更好的滤波器拟合性能。

13.基于倒角法向距离和多尺度几何特征的鲁棒点云法向估计

CMG-Net: Robust Normal Estimation for Point Clouds via Chamfer Normal Distance and Multi-scale Geometry

论文作者:吴应睿、赵明阳、李克强、全卫泽、于天琪、羊箭锋、贾晓红、严冬明

研究介绍:本文提出了一种鲁棒的高准确度点云法向估计方法。先前的方法对噪声的鲁棒性较差,难以被应用于实际场景中,主要原因为:1)直接以标注法向作为拟合目标,导致在带噪声点云上拟合目标与潜在表面不一致;2)输入尺度选取在细节保留和噪声平滑上存在矛盾。针对标注法向与潜在表面不一致的问题,本文以带噪声点云和干净点云的法向相似度为衡量标准,提出了倒角法向距离(Chamfer Normal Distance,CND)作为更合理的评价指标,并基于CND修正了网络训练的损失函数,提高了网络对噪声的鲁棒性,如图1所示。此外,本文设计了一种基于多尺度局部特征聚合和分层几何信息融合的法向估计网络,如图2所示。这种架构能够利用不同尺度特征的优势,更有效地捕捉复杂的几何细节,并缓解在尺度选择上的矛盾。实验证明,本文的方法在合成和真实的数据集上都取得了最佳的效果,且在噪声鲁棒性方面有较大的提升。

图1. (a) CND图示,(b) 不同方法的法向估计效果对比

图2. CMG-Net流程

论文链接:

代码链接:

14. AnomalyGPT: 基于多模态大模型的工业异常检测方法

AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models

论文作者:古兆鹏,朱炳科,朱贵波,陈盈盈,唐明,王金桥

研究介绍:MiniGPT-4,LLaVA 等多模态大模型在图像理解方面展现了卓越的能力,在多种通用视觉任务中取得了显著效果,但是现有的多模态大模型缺乏特定领域知识,而且对物体中局部细节的理解较弱,这导致这些方法不能很好地完成工业异常检测任务。另一方面,大多数现有的工业异常检测方法仅预测异常分数,需要人工设定阈值以区分正常和异常样本,这限制了这些方法的实际应用场景。本文提出了一种基于多模态大模型的新型工业异常检测方法——AnomalyGPT,通过模拟异常样本的方式生成多模态训练数据,使用图像解码器为语言大模型提供图像细节语义信息,并设计了一个提示学习器,使用提示嵌入对多模态大模型进行微调。AnomalyGPT不需要手动设置阈值,可以直接判断异常是否存在并指出异常位置,可以实现多轮对话,而且可以在测试阶段利用少样本迁移到之前从未见过的新类别物体上。在仅提供一个正常样本的条件下,AnomalyGPT在 MVTec 数据集上达到了 85.5% 的准确率,94.1% 的图像级 AUC 和 95.4% 的像素级 AUC,显著地超过了现有方法的性能,在工业场景少样本和无监督场景中取得了业内最好性能。

图1. AnomalyGPT与现有的多模态大模型和工业异常检测方法的效果对比图

图2. AnomalyGPT多模态大模型框架图

论文链接:

项目主页链接:

开源代码链接:

15. 基于波动性度量的大语言模型的自适应结构化剪枝

Fluctuation-based Adaptive Structured Pruning for Large Language Models

论文作者:安永琪、赵旭、于涛、唐明、王金桥

研究介绍:网络结构剪枝是解决大语言模型(LLMs)计算资源需求过大问题的有效方法。用于LLM的剪枝方法一般是无需重新训练的,以避免计算量过大。然而,现有几乎所有的无需重新训练的LLM剪枝方法都属于非结构化剪枝,需要特定硬件支持以获得真实加速。本文归纳了LLM结构化剪枝的三个关键要素:结构化剪枝度量、全局压缩结构和性能恢复,并由此提出了一种无需重新训练的LLM结构化剪枝框架——FLAP。FLAP利用波动性度量判断去除各权重组后输出特征图的可恢复性,然后归一化各层度量指标以全局搜索压缩结构,最后通过统计基准值添加额外的偏置项来恢复输出特征图。在多种语言基准测试中,FLAP的表现显著优于现有的结构化剪枝方法,包括Wanda(结构化剪枝版本)、LLM Pruner。在50%剪枝率下,FLAP的困惑度相较于现有SOTA降低了19%,零样本任务准确率比现有SOTA高1.49%,并实现了相较原始模型66%的推理加速。

论文链接:

代码链接:

16.针对深度合成音频检测的自适应连续学习方法

What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection

论文作者:张晓辉,易江燕,王成龙,章楚源,曾思丁,陶建华

研究介绍:语音合成和声音转换的迅速发展引起了重大关注,因为这种技术的潜在滥用可能性,迫切需要有效的音频深度伪造检测机制。现有的检测模型在区分已知类型的深度伪造音频方面已显示出可喜的成功,但在遇到新的攻击类型时则面临巨大的挑战。为了应对这一挑战,一种新兴且有效的方法是连续学习。在这篇论文中,我们提出了一种称为幅度权重修正(RWM)的连续学习方法,用于音频深度伪造检测。RWM的基本概念涉及将所有类别分为两组:一组是在任务中具有紧凑特征分布的类别,如真实音频;另一组是分布更离散的类别,如各种类型的假音频。这些区别通过类内余弦距离来量化,随后RWM引入针对不同数据类型的可训练梯度方向修正的机制。通过与一众主流连续学习方法进行比较,实验结果表明RWM在新知识获取和减少对已学知识的遗忘方面的优越性。此外,RWM不仅适用于音频深度伪造检测,实验结果还显示了其在图像识别等多个机器学习领域的潜在应用价值。

论文链接:

代码链接:　

17. 根据颜色的低频先验评估辐射场的几何形状

Evaluate Geometry of Radiance Fields with Low-frequency Color Prior

论文作者:方启航,宋亚斐,李克强,申丽,吴怀宇,熊刚,薄列峰

研究介绍:辐射场是三维场景的一种有效表示方式,它已被广泛应用于新视角合成和三维重建中。评估重建的几何形状,即密度场,仍然是一个开放且具有挑战性的问题。这是因为物体几何形状的真值不易获得,往往需要3D扫描和各种预处理,所以许多广泛使用的数据集都没有物体几何形状的真值,这导致密度场难以评估。为此,我们提出了一种新的度量标准,即逆平均颜色残差(Inverse Mean Residual Color,IMRC),它只需物体图像就可以评估重建的密度场。其关键在于,重建的密度场越准确,计算出颜色场的频率就越低。具体地,我们设计了一种计算颜色场的方法,用低频球面谐波来逼近颜色场,并采用逼近的残差代替颜色场的频率,由此计算IMRC。IMRC越高,则密度场的几何形状越好。定性和定量的实验结果验证了所提IMRC的有效性。我们还使用IMRC对几种最先进的方法进行了基准测试,以推动未来相关研究的发展。

图1 IMRC计算流程图

　　　　图2 新视角下渲染的图像、深度图以及颜色残差。IMRC可以正确分析重建的密度场质量代码地址:

18. 基于一致性与均匀性重新审视图掩码自编码器

Rethinking Graph Masked Autoencoders through Alignment and Uniformity

论文作者:王亮,陶翔,刘强,吴书,王亮

研究介绍:图自监督学习可以分为对比式方法和生成式方法。在过去几年中,对比式方法即图对比学习(GCL),在该领域中占据了主导地位。然而,最近提出的图掩码自编码器(GraphMAE)重新引起了人们对生成式方法的关注。尽管生成式方法和对比式方法都在实践中取得了成功,但它们之间的联系与差异还未被充分探讨。因此,我们首先在理论上建立了GraphMAE与GCL之间的关联,证明了GraphMAE中的节点级重构目标隐式地执行了上下文级别的GCL。基于我们的理论分析,我们进一步从表征一致性和均匀性的角度分析GraphMAE的局限性:其一致性受限于掩码策略,而均匀性并未得到严格保证。为了克服这些局限,我们提出了一致性与均匀性增强的图掩码自编码器AUG-MAE。具体来说,我们提出了一种由易到难的对抗掩码策略,以提供难以对齐的样本,从而改善表征一致性。同时,我们引入了显式的均匀性约束,以确保学习到的表征具有均匀性。在基准数据集上的实验结果证明了我们模型具有显著优势。

19.学习用于神经辐射场人脸重演的稠密对应

Learning Dense Correspondence for NeRF-Based Face Reenactment

论文作者:杨嵩林,王伟,兰宇时,樊翔宇,彭勃,杨磊,董晶

研究介绍:人脸重演是一项具有挑战性的任务,需要建立在不同的人脸表征之间的稠密对应关系用于运动迁移。最近的研究采用了神经辐射场(NeRF)作为基础表征,进一步提高了多视图人脸重演在照片逼真度和3D一致性方面的性能。然而,由于隐式表征缺乏像基于网格的3D参数化模型(例如3DMM)的索引对齐顶点标注,因此在不同人脸NeRF之间建立稠密对应关系并非易事。尽管通过将3DMM空间与基于 NeRF 的人脸表征对齐可以实现运动控制,但由于其有限的仅面部建模和低身份保真度,这并不是最佳选择。因此,我们受到启发提出了一个问题:我们是否可以在没有3D参数模型先验的情况下学习不同人脸NeRF 表征之间的稠密对应关系?为了解决这个挑战,我们提出了一个新颖的框架,采用三平面作为基础NeRF表征 ,并将人脸三平面分解为三个组件:标准型空间三平面、身份形变和运动形变。在运动控制方面,我们的主要贡献是提出了一个平面字典模块,它将运动条件高效地映射为一组可学习的正交平面基的线性加权和。我们的框架是第一个在没有3D参数模型先验的情况下实现单图、多视角人脸重演的工作。大量实验证明,我们在精细运动控制和身份保持方面取得了比先前方法更好的结果。

相关链接:

20. 基于多目标优化的长尾学习

Long-Tailed Learning as Multi-Objective Optimization

论文作者:李炜骐,吕凡,尚凡华,万亮,冯伟

研究介绍:现实世界中普遍存在的长尾分布(数据严重不平衡)问题通常会导致模型偏向具有足够样本的类别,对稀有类别表现不佳,针对该问题研究的方法称为长尾学习方法。长尾学习中常采用重新平衡类别的策略,但该策略面临补偿不平衡问题,即提高尾部类别的性能可能会降低头部类别的性能,反之亦然。本文认为模型学习不平衡问题源于不同类别梯度的不平衡,即在更新过程中抑制了欠学习类别的梯度贡献,或者过度补偿欠学习类别导致过拟合。为实现对各类别梯度进行理想补偿,本文将长尾学习问题构建为多目标优化问题,公平对待头部和尾部类别的贡献。为提高优化效率,提出了梯度平衡分组(GBG)策略,将具有相似梯度方向的类别聚在一起,使每次模型参数更新近似地往帕累托下降方向前进。本文提出的GBG方法使具有相似梯度方向的类别组合为更具代表性的梯度,并为尾部类别提供理想的补偿。

相关链接:

21. 用于文本和表格事实核查的异构图推理

Heterogeneous Graph Reasoning for Fact Checking over Texts and Tables

论文作者:龚海松,许伟志,吴书,刘强,王亮

研究介绍:本研究旨在通过对多个证据进行推理,从而预测论断的真实性。通常,这包括证据检索和真实性推理两个主要步骤。本文聚焦于后者,即对非结构化文本和结构化表格信息进行推理。过去的研究主要依赖于微调预训练语言模型或训练同质图模型。尽管它们有效,但我们认为它们未能充分探索不同结构下潜在的语义信息。为解决这一问题,我们提出了一种新颖的基于异构图的事实检查模型——HeterFC。我们的方法利用异构证据图,以单词为节点,巧妙设计的边表示不同的证据属性。通过关系图神经网络进行信息传播,促进论断和证据之间的交互。我们采用基于注意力的方法整合信息,结合语言模型生成预测。引入多任务损失函数以考虑证据检索中的潜在不准确性。在大规模事实检查数据集FEVEROUS上进行的综合实验证明了HeterFC的有效性。

22. 基于扩散语言模型的文本引导分子生成

Text-Guided Molecule Generation with Diffusion Language Model

论文作者:龚海松,刘强,吴书,王亮

研究介绍:文本引导的分子生成旨在根据文本的描述通过AI生成符合文本描述内容的分子,从而辅助可能的药物设计和研发。近年来基于SMILES分子表达的分子生成方法多依赖于自回归的生成模型。本研究指出自回归生成模型有因固定生成顺序而无法修改已生成内容的弊端,可能在分子生成领域带来缺乏对全局约束有效利用的不利影响。因此本研究提出使用扩散语言模型进行文本引导的分子生成,并提出TGM-DLM模型进行验证。TGM-DLM采用两阶段的逆扩散过程从随机噪声中生成分子,其中第一阶段以文本描述为约束生成符合文本描述的分子SMILES嵌入,第二阶段对第一阶段结果进行矫正,修正可能存在的语法错误。通过实验,TGM-DLM展现了优秀的性能,与同参数量级的采用自回归生成框架的MolT5比较,获得了3倍的准确匹配率以及分子指纹相似性指标上18%至36%的增长。

23. 基于显式接触和隐式物体相结合的单目手物交互重建

Learning Explicit Contact for Implicit Reconstruction of Hand-held Objects from Monocular Images

论文作者:胡俊星,张鸿文,陈泽睿,李梦成,王云龙,刘烨斌,孙哲南

研究介绍:基于单目RGB图像的手物交互重建是一项具有挑战性的任务。现有方法利用隐式函数可以较好地重建手持物体,但是它们没有很好地利用手物接触信息,从而导致交互重建的效果不够理想。本工作将显式的手部接触预测和隐式的物体重建相结合,以促进手物交互的重建。首先,直接从单张图像中预测三维的手物接触,通过将区域级和顶点级的图变换器以从粗到细的方式级联来获得更准确的接触预测。然后,将估计的接触信息从手部网格表面扩散到附近物体所处的三维空间,并利用扩散的接触概率构建物体的隐式神经表达,这种建模方式可以有效改善手物接触部分的重建。在多个数据集上的实验表明,本方法在取得最佳指标的同时,可以实现视觉上更加合理的手物交互重建。

图1. 本方法的整体流程图

图2. 输入一张RGB 图像,本方法可以预测手-物接触的区域并以此指导手持物体的三维重建。

相关链接:

24.动态深度路由的多任务强化学习

Not All Tasks Are Equally Difficult: Multi-Task Reinforcement Learning with Dynamic Depth Routing

论文作者:何金岷,李凯,臧一凡,傅浩波,付强,兴军亮,程健

研究介绍:多任务强化学习致力于用单一策略完成一系列不同的任务。为了通过在多个任务中共享参数来提高数据效率,一种常见的做法是将网络分割成不同的模块,并训练路由网络将这些模块重新组合成特定任务的策略。然而,现有的路由方法对所有任务都采用固定数量的模块,忽略了难度不同的任务通常需要不同数量的知识。我们提出了一种动态深度路由(D2R)框架,它可以选择性地跳过某些中间模块,从而灵活地为每个任务选择不同的模块数量。在此框架下,我们进一步引入了ResRouting方法,以解决离策略训练过程中行为策略和目标策略之间路由路径不一致的问题。此外,我们还设计了一种自动路由平衡机制,以鼓励在不干扰已掌握任务路由的情况下,继续探索未掌握任务的路由。我们在机械臂操作环境Meta-World中进行了广泛的实验,结果表明与MTRL基准算法相比,D2R在采样效率和最终性能方面都有显著提高。

25.合作型多智能体强化学习的内在动作趋势一致性

Intrinsic Action Tendency Consistency for Cooperative Multi-Agent Reinforcement Learning

论文作者:张峻凯,张一帆,张希,臧一凡,程健

研究介绍:在合作型多智能体系统中,集中训练分散执行算法(CTDE)仍存在智能体高效合作的挑战。我们分析认为智能体之间的动作策略分歧是影响其训练效率的一个重要因素,这导致算法需要大量的训练样本来训练智能体的团队共识。这种分歧源于CTDE算法的信用分配过程缺乏足够的团队共识相关的奖励指导信号。为了解决这个问题,我们提出了合作型多智能体强化学习的内在动作趋势一致性算法。我们利用动作模型使得邻居智能体能够预测中心智能体的动作趋势。通过动作趋势的预测计算我们设计了一个合作型内在奖励,它鼓励将中心智能体与邻居智能体的动作趋势相匹配。除此之外我们通过理论分析建立了RA-CTDE与CTDE的等价性,证明了CTDE的训练过程可以用每个agent的独立目标来实现。在此基础上,我们提出了一种结合内在奖励和CTDE的新方法。我们在SMAC和GRF基准环境中对具有挑战性的任务进行了大量实验,性能提升证明了我们的方法的有效性。

26.中文标题:针对高效掩码图像建模的块感知样本选择

Patch-Aware Sample Selection for Efficient Masked Image Modeling

论文作者:诸葛正阳,王家兴,李勇,包勇军,王培松,程健

研究介绍:尽管样本选择在传统的监督学习中可以通过提取最具重要性的子数据集来有效减少训练成本,但由于样本级别的重要性赋分和图像块级别的预训练模式存在一定差异,将样本选择用于掩码图像建模(MIM)的加速仍然存在挑战。我们首先构建了在MIM预训练中进行样本选择的基本框架,并发现其存在严重的性能下降的问题。我们认为该问题主要归因于两个因素:随机的掩码策略和简单的平均函数。因此我们提出了块感知的样本选择方法(PASS),其中包括一个低成本的动态训练掩码预测器 (DTMP) 和加权选择得分 (WSS)。DTMP始终保持对样本中的复杂区域进行掩码,确保相对准确和公平的样本重要性得分。WSS利用图像块级别的差异来增强重要性得分。广泛的下游任务实验显示了PASS在加速MIM预训练方面的有效性。PASS在各种数据集、不同的MIM方法和各类任务中都展现出了优越的性能。例如,PASS在仅使用37%的训练数据预算的同时,在ImageNet-1K上维持了和标准MAE相当的性能,并实现了约1.7倍的训练加速。

27.基于智能体拓扑的多智能体策略梯度算法

TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient

论文作者:娄行舟,张俊格,Timothy J. Norman,黄凯奇,杜雅丽

研究介绍:多智能体策略梯度(Multi-Agent Policy Gradient,MAPG)近年来取得了显著的进展。然而,在最先进的MAPG方法中,集中式评论家仍然面临着中心化-去中心化不匹配(Centralized-Decentralized Mismatch,CDM)的问题,这意味着一些智能体的次优行为会影响其他智能体的策略学习。虽然使用个体评论家进行策略更新可以避免这个问题,但它们会严重限制智能体之间的合作。为了解决这个问题,我们提出了一个智能体拓扑框架,该框架决定其他智能体是否应该在策略梯度中被考虑,并在促进合作和减轻CDM问题之间实现折衷。智能体拓扑允许智能体使用联合效用作为学习目标,而不是集中评论家的全局效用或个体评论家的局部效用。为构建智能体拓扑,我们研究了多种随机图模型。我们为随机和确定性MAPG方法都提出了基于拓扑的多智能体策略梯度(Topology-based multi-Agent Policy gradiEnt,TAPE)。我们从理论上证明了随机TAPE的策略提升定理,并为智能体之间合作能力的提升提供了理论解释。在几个基准测试中的实验结果显示,智能体拓扑分别能够促进智能体之间的合作或减轻CDM问题以提高TAPE的性能。最后,我们还进行了多个消融研究并提出了一个启发式图搜索算法,以展示智能体拓扑的有效性。

28.基于掩码图像建模的深度动态自编码器

DDAE: Towards Deep Dynamic Vision BERT Pretraining

论文作者:陈宏昊,孔祥雯,张祥雨,赵鑫,黄凯奇

研究介绍:最近,掩码图像建模(MIM)在自监督表示学习中表现出了良好的前景。然而,现有的MIM框架对所有掩码块进行一视同仁的重建,忽略了不同掩码块与可见块之间的距离不同,其重建难度会有显著差异。本文提出了一种新的深度动态监督,使MIM方法能够在模型的不同预训练阶段和深度两个维度动态重建具有不同难度的块。实验表明所提出的深度动态监督有助于为视觉Transformer提供更多的局部性归纳偏置,特别是在深层,这本质上弥补了自注意力机制局部先验的缺乏。基于深度动态监督,本文提出深度动态自编码器(DDAE),一种简单有效的MIM框架,将动态机制同时应用到像素回归和特征自蒸馏。我们在各种视觉任务上进行了广泛实验,包括ImageNet分类、ADE20K上的语义分割和COCO上的目标检测,验证了本文方法的有效性。

29.基于Point Transformer与联邦学习从苏木精和伊红染色的全切片图像中预测乳腺癌HER2状态

论文作者:李豹,刘振宇,邵立智,邱本胜,步宏,田捷

研究介绍:从广泛可用的苏木精和伊红(HE)染色的全切片图像(WSI)中直接预测人类表皮生长因子受体 2(HER2)的状态可以降低技术成本,加快治疗方案选择。针对WSI分析的方法通常集中在多示例学习模型或者图卷积模型,从而忽略了局部上下文与长程连接,同时缺乏特征的层级聚合。在本研究中,将WSI分析视为点云分析的过程,通过PointTransformer模型对HER2状态进行预测。同时结合联邦学习策略,在无需运输数千兆字节大小的WSI和数据隐私问题的情况下对多个中心的WSI进行模型训练。该方法包含两个新颖的设计。首先提出了一种动态标签分布策略和一个辅助分类器,这有助于建立一个初始化良好的模型,并减轻不同站点间标签分布的差异。此外,还提出了基于余弦距离的最远余弦采样。它可以对最显著的特征进行采样,并捕捉长程依赖关系。通过实验和分析表明,该方法在四个站点共 2687张WSI上取得了SOTA的性能。此外,还证明了模型可以推广到两个未见站点的 229张WSI。

30. 用于训练高性能和高效尖峰神经网络的门控注意力编码

Gated Attention Coding for Training High-performance and Efficient Spiking Neural Networks

论文作者:邱雪睿,朱芮捷,侴雨宏,王昭睿,邓良剑,李国齐

研究介绍:在脉冲神经网络中,编码至关重要,它将外部输入刺激转换为空间时间特征序列。然而,大多数现有的深层脉冲神经网络依赖简单的直接编码方案,生成的脉冲表示较弱,缺乏人类视觉中固有的时间动态特性。因此,我们提出了门控注意力编码(GAC),这是一个即插即用的模块,利用多维门控注意力单元高效地将输入编码为强大的表示,然后馈送到脉冲神经网络架构中。GAC充当预处理层,不会破坏脉冲神经网络的基于脉冲的本质,使其易于在仅需最小修改的情况下实现高效的神经形态硬件。通过观察者模型理论分析,我们证明了GAC的注意力机制改进了时间动态和编码效率。在CIFAR10/100和ImageNet数据集上的实验表明,GAC实现了最先进的准确率与卓越的效率。值得注意的是,我们仅用6个时间步长就在CIFAR100上将top-1准确率提高了3.10%,在ImageNet上的提高了1.07%,同时将能耗降低到之前工作的66.9%。我们最先探索了深度脉冲神经网络中基于注意力的动态编码方案,在大规模数据集上显示了卓越的效果和效率。

　　　　图1.门控注意力机制编码(GAC)与其他方法的比较

　　　　图2.门控注意力机制编码(GAC)的具体细节实现.

论文链接:https://arxiv.org/pdf/2308.06582

代码链接:

31. 用于少样本说话人生成的音频增强神经辐射场

AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head Synthesis

论文作者:李东泽,赵康,王伟,彭勃,张迎亚,董晶,谭铁牛

研究介绍:音频驱动的说话人生成在数字人、电影制作和虚拟现实等领域中有着广泛的应用。然而,在实际场景中,往往只有几秒钟的目标人物说话视频可供模型训练,此时,以往方法存在了两个局限性,从而难以合成高质量的说话人:1)它们要么没有便于快速拟合新人物的基础模型,要么在建立基础模型时忽略了音频信息的重要性;2)它们大多忽略了不同人脸区域与驱动音频之间的关联程度,例如,嘴巴与音频相关,而耳朵与音频无关。本工作提出了音频增强神经辐射场(AE-NeRF)来解决上述问题,它可以在少样本(即仅有几十秒的较短视频可供使用)情况下生成逼真的数字人。具体来说,本工作在特征融合阶段引入了音频感知聚合模块,不同视觉特征的权重由目标音频与参考音频的相似度决定。此外,本工作提出了音频对齐人脸生成策略,采用两个NeRF 分别对人脸的音频相关区域和音频无关区域进行建模。大量实验表明,AE-NeRF 在图像保真度、音频-嘴唇同步性和泛化能力方面都超越了最先进的技术,本工作的流程图如下图所示。

32.面向少样本语义分割的本质相关特征增强网络

Relevant Intrinsic Feature Enhancement Network for Few-Shot Semantic Segmentation

论文作者：包笑一覃杰孙思洋王欣刚郑赟

研究介绍：对于少样本语义分割来说，主要任务是从有限的标注数据中提取特定类别的本质信息。然而，以往方法存在语义模糊性和类间相似性两个问题，限制了像素级前景-背景分类的准确性。为了缓解上述问题，我们提出了相关本质特征增强网络（RiFeNet）。为了提高前景实例的语义一致性，我们提出了一个无标签分支，作为一种高效的数据利用方法，教模型如何提取对类内差异具有鲁棒性的内在特征。值得注意的是，在测试过程中，无需额外的非标注数据和计算，就能排除所提出的非标注分支。此外，我们还提出了一个新的多级原型生成和交互模块，扩大了前景和背景之间的类间差异。通过全局原型和局部原型之间不同粒度的互补，实现对相似类别更好的区分。在 PASCAL-5i 和 COCO 基准测试中，RiFeNet的定性和定量性能都超过了当前最好方法。

新闻中心

科研动态

耀世32篇论文被第38届AAAI人工智能会议接收