留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

2025年  第51卷  第7期

显示方式:
2025年, 第51卷, 第7期
icon下载 (96974) 422 icon预览
基于多尺度空间注意力引导的图像超分辨率重建网络
程德强, 王培杰, 董彦强, 寇旗旗, 江鹤
2025, 51(7): 2185-2195. doi: 10.13700/j.bh.1001-5965.2023.0547
摘要:

针对基于注意力机制的图像超分辨率重建网络忽视了注意力特征的差异性,仅将注意力机制直接引入到网络模型中,对不同层次特征进行相同处理的问题,设计了一种多尺度空间注意力引导的图像超分辨率重建网络SAGN。提出了增强特征提取残差块(ERB),完善了局部信息的表征能力;集成了多尺度空间注意力(MSA)模块,获取了MSA特征信息;引入了注意力引导模块(AGM),对不同的特征分配个性化的权重,以实现有效的上下文全局特征融合和冗余信息抑制。实验结果表明:量化测试和主观效果上,相比于传统的注意力结构,SAGN在4个基准数据集上都展现出了优越性,其4倍重建结果的峰值信噪比(PSNR)较次优模型平均提高了0.05 dB,进一步证实了SAGN在恢复图像的几何结构和细节方面的优势。

基于模糊逻辑与自适应策略的红外可见光图像融合
杨勇, 刘家祥, 黄淑英, 王晓争, 夏钰锟
2025, 51(7): 2196-2208. doi: 10.13700/j.bh.1001-5965.2023.0383
摘要:

由于成像机制不同,红外图像能捕捉目标信息,可见光图像提供纹理细节,需融合两者以提升视觉感知与机器识别效果。基于模糊逻辑理论,提出一种多级模糊逻辑判别与自适应参数融合策略(MFD-APFS)的红外与可见光图像融合方法。将红外图像与可见光图像分别进行结构块分解,得到由信号强度分量重构的对比度细节图像组;将源图像组与对比度细节图像组分别输入设计的模糊逻辑判别系统,对图像组进行模糊逻辑判别得到各自的显著性图像,并对得到的显著性图像组进行二次模糊逻辑判别,得到联合的显著性图像;利用引导滤波技术,将显著性图像引导源图像,得到多幅决策图,通过自适应参数的融合策略,得到最终的融合图像。将MFD-APFS方法在红外和可见光图像公开数据集上进行实验测试,结果表明,相比7种主流的融合方法,对于客观度量指标SSIM-F和QAB/F,在TNO数据集上分别提升了0.169和0.1403,在RoadScenes数据集上分别提升了0.17530.0537;主观视觉效果表明,所提方法可以生成目标清晰、细节丰富的融合图像,较好地保留了红外图像目标信息及可见光图像纹理信息。

空间信息增强的室内多任务RGB-D场景理解
孙国栋, 熊晨韵, 刘俊杰, 张杨
2025, 51(7): 2209-2217. doi: 10.13700/j.bh.1001-5965.2023.0391
摘要:

移动机器人在探索三维空间时需要获取大量场景信息,这些信息包含语义、实例对象、位置关系等多个方面。理解场景信息的准确性和计算复杂性是移动端关注的2个焦点。基于此,提出了一种适用于室内场景理解的空间信息增强的多任务学习方法。该方法由包含通道-空间注意力融合模块的编码器及多任务头的解码器组成,可同时实现语义分割、全景分割(实例分割)和方向估计多个任务。其中,通道-空间注意力融合模块旨在增强RGB和深度各自的模态特征,由简单卷积构成的空间注意力机制可降低收敛速度,与通道注意力机制信息融合后,进一步强化全局信息的位置特征。语义分支的上下文模块位于解码器后,为像素级语义信息提供有力支持,有助于减小模型大小。同时,设计了一种基于硬参数共享且能均衡训练任务的损失函数,探讨合适的轻量级骨干网络和任务数量对提升场景理解算法性能的影响。在新增标签注释的室内数据集NYUv2和SUN RGB-D上,评估了多任务学习方法的有效性,综合性全景分割精度分别提高了2.93%和4.87%。

基于坐标感知注意的多帧自监督单目深度估计
程德强, 范舒铭, 钱建生, 江鹤, 寇旗旗
2025, 51(7): 2218-2228. doi: 10.13700/j.bh.1001-5965.2023.0417
摘要:

为解决单目深度估计方法中物体细节边缘深度预测模糊不清的问题,提出了一种基于坐标感知注意的多帧自监督单目深度估计方法。提出了一种坐标感知注意模块,以增强编码器最下层输出特征,并加强成本体的特征利用;提出了一种基于像素洗牌的深度预测解码器,可有效分离低分辨编码器特征中的多物体融合特征,以细化深度估计结果中的物体边缘。在KITTI和Cityscapes数据集上的实验测试结果表明:所提方法优于目前主流方法,显著提升了主观视觉效果和客观评价指标,尤其在物体边缘细节上具有更好的深度估计性能。

递归门控增强与金字塔预测的铁路全景分割
陈永, 周方春, 张娇娇
2025, 51(7): 2229-2239. doi: 10.13700/j.bh.1001-5965.2023.0492
摘要:

针对高速铁路场景全景分割时存在目标特征提取不充分、边缘轮廓分割模糊等问题,提出了一种递归门控增强与金字塔预测的铁路全景分割网络。在DETR模型的基础上,构建改进多尺度级联CSP-DarkNet53特征提取网络,提升对不同尺度的铁路场景目标特征提取能力;提出递归门控与类特征增强模块,获取更丰富的边缘特征信息,增强对边缘轮廓信息的提取和分割的能力;将多尺度可变形注意力引入编码骨干网络中,进一步捕获多尺度上下文信息,减少分割细节特征丢失;通过改进金字塔预测与像素类别分割模块,实现铁路全景的分割输出。实验结果表明:相比于原始DETR模型,所提方法的全景分割质量指标PQ提升了7.4%,前景实例目标评价指标PQTh提升了9.7%,背景填充区域质量评价指标PQSt提升了6.6%。所提方法在铁路场景下图像全景分割具有较好的性能,主观评价均优于对比方法。

用于长时视觉跟踪的级联目标漂移判定网络
侯志强, 赵佳鑫, 陈语, 马素刚, 余旺盛, 范九伦
2025, 51(7): 2240-2252. doi: 10.13700/j.bh.1001-5965.2023.0504
摘要:

针对现有目标漂移判定准则中需要人为选定阈值和判定性能不佳的问题,提出一种自适应选取阈值的级联目标漂移判定网络。通过2个子判定网络的级联设计,判定跟踪结果是否漂移;在所提网络中使用静态模板、长时模板和短时模板联合判定跟踪结果,提高判定的准确性,为使模板适应判定过程中目标的外观变化,设计长短时模板更新策略以保证模板质量;将所提级联目标漂移判定网络联合短时跟踪器TransT与全局重检测方法GlobalTrack,搭建长时视觉跟踪算法TransT_LT。在UAV20L、LaSOT、VOT2018-LT和VOT2020-LT等4个长时视觉跟踪数据集上对所提算法进行性能测试,实验结果表明:所提长时视觉跟踪算法具有优越的长时视觉跟踪性能,特别是在UAV20L数据集上,相较于基准算法,跟踪成功率和精度分别提升了7.7%和10.3%。所提目标漂移判定网络的判定速度为100帧/s,对长时视觉跟踪算法的速度影响不大。

基于动态嵌入特征的鲁棒半监督视频目标分割
陈亚当, 赵翊冰, 吴恩华
2025, 51(7): 2253-2261. doi: 10.13700/j.bh.1001-5965.2023.0354
摘要:

针对半监督视频目标分割(VOS)方法存在推理时内存占用不断增加及仅依赖低级像素特征训练困难的问题,提出一种基于动态嵌入特征和辅助损失函数的半监督视频目标分割方法。使用动态嵌入特征建立恒定大小的记忆库;通过时空聚合方法,利用历史信息生成和更新动态嵌入特征;使用内存更新感应器来自适应控制记忆库的更新间隔,适应不同视频的运动模式;使用辅助损失函数,在高级语义特征层面上给网络提供辅助指导,并通过在多重特征层面多方面指导,提高模型精度和训练效率;针对视频前背景中相似目标误匹配的问题,设计一种时空约束模块,以利用视频的时间连续性特性更好地捕获前一帧掩码信息与当前帧之间的关联。实验结果表明:所提方法在DAVIS 2017验证集上达到84.5% J&F的精度,在YouTube-VOS 2019验证集达到82.4% J&F的精度。

基于联合交互注意力的图文情感分析方法
胡慧君, 丁子毅, 张耀峰, 刘茂福
2025, 51(7): 2262-2270. doi: 10.13700/j.bh.1001-5965.2023.0365
摘要:

社交媒体中的图文情感对于引导舆论走向具有重要意义,越来越受到自然语言处理(NLP)领域的广泛关注。当前,社交媒体图文情感分析的研究对象主要为单幅图像文本对,针对无时序性及多样性的图集文本对的研究相对较少,为有效挖掘图集中图像与文本之间情感一致性信息,提出基于联合交互注意力的图文情感分析(SA-JIA)方法。该方法使用RoBERTa和双向门控循环单元(Bi-GRU)来提取文本表达特征,使用ResNet50获取图像视觉特征,利用联合注意力来找到图文情感信息表达一致的显著区域,获得新的文本和图像视觉特征,采用交互注意力关注模态间的特征交互,并进行多模态特征融合,进而完成情感分类任务。在IsTS-CN数据集和CCIR20-YQ数据集上进行了实验验证,结果表明:所提方法能够提升社交媒体图文情感分析的性能。

基于语义信息引导的多标签图像分类
黄俊, 范浩东, 洪旭东, 李雪
2025, 51(7): 2271-2281. doi: 10.13700/j.bh.1001-5965.2023.0382
摘要:

多标签图像分类旨在为给定的输入图像预测一组标签,基于语义信息的研究主要利用语义和视觉空间的相关性指导特征提取过程生成有效的特征表示,或利用语义和标签空间的相关性学习能够捕获标签相关性的加权分类器,未能同时建模语义、视觉和标签空间相关性。针对该问题,提出一种基于语义信息引导的多标签图像分类 (SIG-MLIC)方法,SIG-MLIC方法可以同时利用语义、视觉和标签空间,通过语义引导的注意力(SGA)机制增强标签与图像区域的关联性而生成语义特定的特征表示,同时利用标签的语义信息生成一个具有标签相关性约束的语义字典对视觉特征进行重建,获得归一化的表示系数作为标签出现的概率。在3个标准的多标签图像分类数据集上的实验结果表明:SIG-MLIC方法中的注意力机制和字典学习可以有效提高分类性能,验证了所提方法的有效性。

基于双分支特征增强和多级轨迹关联的多目标跟踪算法
马素刚, 段帅鹏, 侯志强, 余旺盛, 蒲磊, 杨小宝
2025, 51(7): 2282-2289. doi: 10.13700/j.bh.1001-5965.2023.0472
摘要:

在多目标跟踪(MOT)算法中,经常出现目标特征提取不足、身份切换及轨迹缺失问题,降低跟踪性能。为解决以上问题,提出一种基于双分支特征增强和多级轨迹关联(MTA)的MOT算法。采用双分支特征学习网络对检测和跟踪2种任务的特殊性和相关性进行学习,缓解了两任务之间的过度竞争,提取到充足的目标特征信息;引入关联矩阵(AM),利用更多的时序信息预测偏移向量,减少身份切换次数;采用多级轨迹关联策略,保留一部分低分检测框,并将检测框重新划分为高分框和低分框,采用不同的匹配方式与轨迹进行关联,减少轨迹缺失次数。在典型多目标跟踪数据集MOT17和MOT20上,对JDE、CenterTrack等6种相关算法进行对比实验。实验结果表明:所提算法在MOT17数据集上的多目标跟踪准确度(MOTA)和身份F1分数(IDF1)值分别达到68.2%和68.5%,与基准算法CenterTrack相比,分别提升了2.1%、4.3%;在MOT20数据集上,MOTA和IDF1值分别达到52.7%和48.2%,分别提升了1.4%、7.9%。所提算法在复杂场景下取得了优异的跟踪性能。

基于变换学习的快速多切片MRI重建算法
段继忠, 刘欢
2025, 51(7): 2290-2303. doi: 10.13700/j.bh.1001-5965.2023.0561
摘要:

二维(2D)多切片磁共振数据在相邻切片之间具有高度的相关性,通过利用切片间的冗余性能够重建出更高质量的切片图像,但由于硬件条件的限制,2D多切片磁共振成像(MRI)需要耗费大量时间。为提高2D多切片磁共振图像的重建质量和重建速度,将联合稀疏变换学习正则项引入到多切片Hankel张量完成(MS-HTC)模型中,提出一种快速2D多切片磁共振成像重建(FMS-JTLHTC)算法。该算法使用交替方向乘子法对目标问题进行求解;引入快速迭代收缩阈值法加快收敛,并使用图形处理器对算法进行加速。使用4组脑部数据集在2种不同采样模式下进行实验,结果表明:FMS-JTLHTC算法的峰值信噪比(PSNR)相较于同时自动校准和K空间估计(SAKE)算法、并行成像数据的局部K空间领域的低秩建模(PLORAKS)算法和MS-HTC算法分别平均提高了4.04 dB、3.67 dB和2.07 dB,而且重建速度相比MS-HTC算法提高了14倍。

结合上下文关联的图像情感分析
罗改芳, 张浩, 徐丹
2025, 51(7): 2304-2313. doi: 10.13700/j.bh.1001-5965.2023.0345
摘要:

图像情感分析旨在分析和理解视觉内容所传达的情感,其挑战在于弥合潜在视觉特征与抽象情感间的情感鸿沟。现有的深度模型试图一次性通过直接在全局范围内学习有辨别力的高级情感表征来弥合鸿沟,但忽略了深度模型各层特征之间的层次关系,导致上下文特征间的关联缺失。为此,提出一种上下文层次交互网络(CHINet)来建立层次结构中的上下文信息和情感之间的相关性模型。该模型包含2个分支:自下而上的主分支直接在高级语义层次上学习全局情感表征,针对该分支的不同层次特征,通过构建浅层风格编码器和情感激活注意力机制来分别提取风格表示并定位潜在情感激活区域;所提取的特征被级联到金字塔结构作为自上而下分支,从而建模上下文层次相关性并为情感表示提供浅层视觉特征。通过全局和局部学习将低级风格属性和高级图像语义整合到一起。实验结果表明:所提模型在FI数据集上较同类方法(包括多层次特征融合方法和结合了局部情感区域的方法)提升了情感识别准确率。

基于IcD-FDRL的应急监控视频边缘智能传输优化
李彦, 万征, 邓承志, 汪胜前
2025, 51(7): 2314-2329. doi: 10.13700/j.bh.1001-5965.2023.0378
摘要:

应急监控视频传输作为提升突发事件监测、公共安全事件处理、灾后重建等情况下应急工作处理能力的关键技术手段,逐渐成为国家智慧应急体系建设重点支持的专业领域和研究方向。随着5G技术、决策型人工智能技术的不断发展,为实现自适应的高质量应急监控视频传输,针对局部区域内公共安全和应急救援监控,建立一种应急监控视频边缘智能传输架构,设计了应急监控视频重要性度量方法,提出簇内动态联邦深度强化学习(IcD-FDRL)算法,并实现了基于簇内动态联邦深度强化学习的应急监控视频边缘智能传输优化,以打破监控数据孤岛,提升算法学习效率,实现重要应急监控视频的低时延、低成本、高质量和优先传输。通过仿真实验进行了对比分析,验证了所提模型和算法的有效性。

基于自适应多态蚁群优化的智能体路径规划
邢娜, 邸昊天, 尹文杰, 韩亚君, 周洋
2025, 51(7): 2330-2337. doi: 10.13700/j.bh.1001-5965.2023.0432
摘要:

在智能体路径规划中,蚁群算法是较为流行的路径求解策略,且得到了广泛的应用。然而,传统蚁群算法存在局部最优和多余拐点问题。基于此,提出自适应多态蚁群优化算法,通过多群体划分和协作机制,极大的提高了搜索和收敛速度,有助于增强全局搜索能力,避免陷入局部最优解。改进的信息素更新策略和路径选择记录表构造进一步提高路径规划的准确性。通过3次B样条平滑曲线对路径进行处理,有效减少拐点,实现路径的平滑化。经过MATLAB和机器人操作系统(ROS)-Gazebo仿真验证,结果表明:所提算法在复杂环境下具有良好的可行性。综上所述,所提算法为智能体全局搜索带来了显著的优化和改进。

语言引导视觉的小样本航拍图像目标检测
张智, 易华挥, 郑锦
2025, 51(7): 2338-2348. doi: 10.13700/j.bh.1001-5965.2023.0491
摘要:

针对现有航拍图像目标检测方法在航拍数据集变化时,即拍摄视角、图像质量、照明条件、背景环境等发生大幅变化,以及目标外观变化明显、目标类别新增时,不经过对新数据集全样本训练,而采用原有数据集直接推理,检测精度大幅下降的问题,提出语言引导视觉的小样本航拍图像目标检测方法。采用词语-区域对齐分支取代传统目标检测网络中的分类分支,得到同时具有语言和视觉信息的词语-区域对齐分类分数作为预测分类结果,进而将目标检测和词语定位统一为一个任务,并利用语言引导提升视觉目标检测精度。针对输入文本语言变化引起小样本目标检测精度波动的情况,设计语言视觉偏置网络,挖掘语言特征和视觉特征的关联关系,提升语言视觉的匹配度,缩小精度波动,并进一步提升小样本目标检测精度。在UAVDT、Visdrone、AeriaDrone、VEDAI、CARPK_PUCPR数据集上的大量实验结果证明了所提方法的优越性能,在UAVDT航拍数据集上所提方法在30样本时平均精度均值(mAP)可达14.6%,相比航拍图像检测方法簇检测器(ClusDet)、密度图引导的目标检测网络(DMNet)、全局-局部自适应网络(GLSAN)和粗粒度密度图网络(CDMNet)在全样本训练的精度,分别提高了0.9%、−0.1%、−2.4%和−2.2%;在CARPK_PUCPR数据集上所提方法在30样本时mAP可达58.0%,相比通用目标检测方法全卷积单阶段目标检测器(FCOS)、自适应训练样本选择(ATSS)、广义焦点损失V2(GFLV2)和交并比感知密集目标检测器(VFNET)在全样本训练的精度,分别提高了1.0%、0.8%、0.1%和0.3%,体现了所提方法强大的小样本泛化和迁移能力。

基于特征增强与自适应阈值非极大值抑制的目标检测算法
孟伟君, 安雯, 马素刚, 杨小宝
2025, 51(7): 2349-2359. doi: 10.13700/j.bh.1001-5965.2023.0534
摘要:

为进一步解决目标漏检和重复检测等问题,提升目标检测的性能,提出一种基于特征增强与自适应阈值的非极大值抑制(NMS)目标检测算法。将注意力引导的多尺度上下文模块(AMCM)用于检测器颈部,在利用空洞卷积提升特征语义信息的基础上,通过注意力捕获跨通道位置信息,增强网络的特征表达能力;通过基于目标密度的自适应阈值NMS(ADT-NMS),针对不同场景的实例应用动态抑制阈值,降低目标的误检率。所提算法在PASCAL VOC数据集上误检率为13.7%,相比基准算法YOLOv4降低了1%,检测精度、召回率分别达到83.7%、96.6%,分别提高了1.7%、0.9%;在KITTI数据集上误检率为22.1%,相比基准算法降低了1.3%,检测精度、召回率分别达到83.6%、91.8%,分别提高了1.8%、2.3%。实验结果表明:所提算法较好地解决了目标漏检和重复检测问题。

基于信噪比的学习型哈里斯鹰优化算法
张林, 沈佳颖, 胡传陆, 朱东林
2025, 51(7): 2360-2373. doi: 10.13700/j.bh.1001-5965.2023.0433
摘要:

针对哈里斯鹰优化(HHO)算法存在种群学习性与适应性不足的问题,提出一种基于信噪比的学习型哈里斯鹰优化(SLHHO)算法。该算法通过引入信噪比的概念来判断个体的位置信息,设计了一种协调学习策略,可以更合理地更新种群内个体的位置,进而对逃逸距离重新设计,提升了算法的适应与寻优能力。以12个基准函数为标准,将所提算法与哈里斯鹰算法的变体及其他算法进行性能测试,并在时间复杂度、多样性、探索与开发等评价指标中进行对比分析,结果显示,SLHHO算法具有较强的竞争力与可行性,在压力容器设计问题中,验证了SLHHO算法的实用性。

面向低延迟视频压缩感知的搜索窗自适应重构
孙仁慧, 刘浩, 邓开连, 燕帅
2025, 51(7): 2374-2383. doi: 10.13700/j.bh.1001-5965.2023.0333
摘要:

面向分布式视频压缩感知,帧间多假设预测能够降低编码端的运算量、提高解码端非关键帧的恢复质量,因此,近年来出现了很多与其相关的优化算法。然而在现有算法中,假设集的搜索窗口是大小经验固定的正方形区域。为进一步提高假设集质量、降低解码端时延,提出一种搜索窗口位置和大小自适应变化的重构算法。所提算法根据光流法快速确定相邻非关键帧之间的运动向量;联合该运动向量和前向相邻非关键帧与关键帧之间的运动信息,在关键帧中确定搜索窗口的中心块位置;由当前重构块与搜索窗口中心块的相对位置关系自适应地确定一个符合运动变化的矩形搜索窗口。在低延迟框架下对多个视频序列进行实验分析。实验结果表明:所提算法能够有效提高非关键帧的恢复质量,并减少运行时间。

无模态融合的高效弱监督视频时刻检索算法
蒋寻, 徐行, 沈复民, 王国庆, 杨阳
2025, 51(7): 2384-2393. doi: 10.13700/j.bh.1001-5965.2023.0379
摘要:

弱监督视频时刻检索(WSVMR)旨在基于视频与自然语言文本的匹配关系训练深度学习算法模型,以实现根据自然语言查询文本从未经修剪的视频中检索特定事件内容的起始与结束时间。 大多数现有的WSVMR算法采用多模态融合机制来理解视频内容以完成时刻检索,限制了现有算法的运行效率,降低了该项技术在多媒体应用中的实用性。基于此,提出一种可实现快速WSVMR的无融合多模态对齐网络(FMAN)算法。该算法可以将复杂的跨模态交互计算全部限制在训练阶段,从而允许模型对视频数据和文本数据都进行离线编码,显著提高了视频时刻检索的推理速度。在Charades-STA数据集和ActivityNet-Captions数据集上的实验结果表明:FMAN算法所取得的检索性能与效率都优于现有算法:对于衡量检索性能的指标R1召回率和R5召回率,在Charades-STA数据集上,所提算法分别平均取得了2.66%和1.57%的性能提升;在ActivityNet-Captions数据集上,所提算法分别平均取得了0.19%和3.35%的性能提升;在检索效率上,所提算法将在线每秒浮点运算次数降低至原有算法的1%以下。

面向红外弱小舰船检测的轻量化神经网络设计
唐文婷, 李波, 季梦奇
2025, 51(7): 2394-2403. doi: 10.13700/j.bh.1001-5965.2024.0747
摘要:

为高效提取红外遥感图像中弱小舰船的深度特征,提出一种轻量化骨干网络设计方法。受视觉注意力驱动的感受野调节机制启发,提出包含多尺寸感受野感知与选择过程的视觉感受野调节机制模拟方法,提高红外弱小舰船目标的表征效果;结合特征复用与卷积核分解的设计思想优化了多尺寸感受野模拟过程,实现轻量特征选择算子模拟多尺寸感受野选择过程,进一步降低网络的运算开销。在红外弱小舰船检测数据集上的实验结果表明:该网络检测精度提高了2%,且相较通用轻量化网络参数量减少2.3×106,计算量降低9.1 GFLOPs次;在存在相似地物干扰的港口及离岸复杂场景下,所提方法有效降低了虚警,并抑制了漏检。

基于多视口自适应融合的全景图像质量评价
冯晨曦, 张地, 林敢, 叶龙
2025, 51(7): 2404-2414. doi: 10.13700/j.bh.1001-5965.2023.0381
摘要:

现有的全景图像质量评价(OIQA)模型在提取各视口局部特征时相对独立,导致计算复杂度较高,且难以利用端到端的融合模型对各视口间的关联性进行刻画。针对该问题,提出了一种基于特征共享和多视口自适应融合的质量评价方法。利用共享的骨干网络,将现有方法中互相独立的视口分割与计算任务转换到特征域,使得仅经1次前馈计算即可提取整个图像的局部特征。在此基础上,引入基于球面均匀采样的特征域视口分割方法以保证观察空间和表示空间的像素密度一致,并用语义信息指导各视口局部质量特征的自适应融合。所提方法在压缩的虚拟现实图像质量(CVIQ)数据集和OIQA数据集上的Pearson线性相关系数(PLCC)和Spearman秩相关系数(SRCC)均在0.96以上,与现有主流评价方法相比达到最优。相较于传统评价方法结构相似性指数(SSIM),所提方法在2个数据集上的平均PLCC和平均SRCC分别提高了9.52%和8.7%;相较于最新评价方法多感知特征图像质量评价(MPFIQA),所提方法在2个数据集上的平均PLCC和平均SRCC分别提高了1.71%和1.44%。

基于小波变换和平行注意力的多源遥感图像分类
王嘉毅, 高峰, 张天戈, 甘言海
2025, 51(7): 2415-2422. doi: 10.13700/j.bh.1001-5965.2023.0329
摘要:

充分挖掘多源遥感图像数据特征的依赖关系,实现不同模态图像数据间的优势互补,已成为遥感领域的研究热点方向之一。现有的高光谱和合成孔径雷达(SAR)数据联合分类任务存在图像特征提取和特征表达不充分的问题,高频信息容易损失,不利于后续的分类任务,以及多源图像特征交互有限,多模态特征关联不紧密的关键难题。针对上述问题,围绕图像特征的鲁棒表达和多源特征的高效关联开展研究,提出了基于小波变换和平行注意力机制的多源遥感图像分类网络(WPANet)。基于小波变换的特征提取器可以充分利用频域分析技术,在可逆下采样的过程中充分捕捉粗/细粒度级别特征;基于平行注意力机制的特征融合器充分综合多模态遥感数据的一致性和差异性,完成强相关性特征的融合和生成,以提升分类准确度。在Augsburg和Berlin这2个真实多源遥感数据集上的实验表明:所提分类方法具有显著优势,总体准确率分别达到90.40%和76.23%,相比于深度特征交互网络(DFINet)等主流方法,在2个数据集上的总体准确率分别至少提升2.66%和12.22%。

显著性感知三重正则化相关滤波无人机目标跟踪算法
贺冰, 王法胜, 王星, 孙福明
2025, 51(7): 2423-2436. doi: 10.13700/j.bh.1001-5965.2023.0362
摘要:

无人机(UAV)场景中的目标跟踪在很多现实任务中得到广泛应用。与一般场景中的目标跟踪任务不同,UAV目标跟踪更易受到复杂环境干扰和算力的限制。基于此,提出了一种显著性感知三重正则化相关滤波(TRCF)UAV目标跟踪算法。采用高效的显著性目标检测算法动态生成对偶空间正则化器来抑制边界效应,惩罚不相关的背景噪声系数。引入时间正则化应对目标因外观变化而导致的滤波器退化问题,提供更鲁棒的外观模型。此外,引入轻量型的深度网络CF-VGG来提取目标的深度特征,并与手工特征线性融合描述目标的语义信息,提高跟踪精度。在5个公开的UAV基准数据集上进行了充分实验,结果表明:所提算法在5个数据集上的整体性能均有不同程度提升,证明了算法的有效性和鲁棒性,且算法的实时跟踪速度约为21帧/s,能够胜任UAV的目标跟踪任务。

基于无监督深度学习的航拍图像拼接算法
梁镇锋, 夏海英, 谭玉枚, 宋树祥
2025, 51(7): 2437-2449. doi: 10.13700/j.bh.1001-5965.2023.0366
摘要:

传统的图像拼接算法过度依赖特征的准确定位或分布,导致在复杂的航拍场景下鲁棒性差。因此,提出了一个完整的无监督深度学习航拍图像拼接框架,其由无监督深度单应性估计网络和无监督图像融合网络组成。无监督深度单应性估计网络旨在通过学习参考图像和目标图像之间的单应性变换,为后续的拼接工作提供准确的对齐信息;无监督图像融合网络用于学习航拍图像拼接的变形规则,生成最终的拼接结果。为了训练所提学习框架,提供了一个用于无监督航拍图像拼接的真实数据集,比较了尺度不变特征变换(SIFT)+Ransac、加速非线型扩散特征检测与匹配(AKAZE)+增强型高效二进制局部图像描述符(BEBLID)、基于BRIEF算法的快速二值特征向量(ORB)+Ransac和基于深度学习的图像拼接算法,实验结果表明,结构相似性指数(SSIM)提高了39.94%,峰值信噪比(PSNR)提高了36.55%,均方根误差(RMSE)降低了66.09%。此外,所提算法在真实的航拍场景下相较于现有的基于深度学习和传统的图像拼接算法具有更好的视觉拼接效果和鲁棒性。

基于语义规则的自适应情感词典自动构建算法
卫青蓝, 何雨, 宋金宝
2025, 51(7): 2450-2459. doi: 10.13700/j.bh.1001-5965.2023.0367
摘要:

使用词典进行文本情感分析的方法虽然快捷无监督,但其准确性受到词典质量的约束。现有中文通用词典往往都由手动构建,无法自动发现新词且存在情感歧义词,因此在跨域应用时,现有词典质量有待提高。针对上述问题,提出了一种基于语义规则的领域自适应中文情感词典自动构建算法。构建了中文情感固定词典,有效消除了情感歧义性;提出了新的领域自适应的中文新词发现方法,实现了对通用领域中文词典的自动扩充;提出了融合词性筛选和语义规则嵌入的情感词汇倾向无监督计算方案,有效提高了精度。实验证明:在常用计算机语料库上,采用情感固定词典的情感分析方法比使用其他中文通用词典准确率平均提高9.31%,精确率平均提高12.77%,精确率和召回率的调和平均数F1值平均提高7.43%。在酒店、中文情感分析语料库2个数据集上,提出的情感词典自动构建算法较先进算法准确率平均提高了7.41%,召回率平均提高了12.23%,F1值平均提高了9.08%。

基于差异性特征蒸馏的多模态连续学习方法
贺驰原, 程少旭, 许林峰, 孟凡满, 吴庆波
2025, 51(7): 2460-2467. doi: 10.13700/j.bh.1001-5965.2023.0369
摘要:

近年来连续学习成为一个新的研究热点,但在多模态架构的连续学习任务中,数据不能被完全利用,导致了严重的灾难性遗忘和学习受阻问题。因此,提出了基于特征蒸馏的多模态连续学习方法。该方法重点考虑不同模态在任务表现方面的差异性,选择较多或较少地保留模态旧知识,以激发各模态从整体角度挖掘具有判别性特征的潜力。在多模态行为识别数据集UESTC-MMEA-CL上的实验验证了所提方法的有效性。在进行到第8个任务时,所提方法的平均准确率在微调基础上提升了22.0%,在不遗忘学习(LwF)的基础上提升了20.1%。与经典的知识蒸馏方法相比,提出的差异性特征蒸馏方法显著提高了传感器模态的利用率,从而更显著地缓解了多模态网络的灾难性遗忘问题。

基于多元优化的批量图像隐写载体选择方法
王仰光, 姚远志, 俞能海
2025, 51(7): 2468-2477. doi: 10.13700/j.bh.1001-5965.2023.0380
摘要:

批量图像隐写通过载体选择在多张载体图像中嵌入秘密信息,为社交网络中的隐蔽通信提供有效的途径。与传统的图像隐写相比,批量图像隐写的关键科学问题是在保证抗检测性能的情况下设计有效的载体选择方法。基于此,提出一种基于多元优化的批量图像隐写载体选择方法,通过联合分析嵌入失真、图像相关性、嵌入容量三元因素,将批量图像隐写中的载体选择建模为多元优化问题。同时,针对社交网络可能对载密图像进行压缩的情况,在批量图像隐写载体选择时设计了秘密信息分片与重组策略,提升了批量图像隐写的鲁棒性。充分的实验结果表明:所提方法在抗检测性能、嵌入容量和鲁棒性上取得了令人满意的效果,为基于社交网络的隐蔽通信提供了技术支撑。

基于多标签对抗领域自适应的行人属性识别算法
胡强梁, 陈琳, 尚明生
2025, 51(7): 2478-2487. doi: 10.13700/j.bh.1001-5965.2023.0386
摘要:

针对无监督领域自适应算法通常局限于单标签学习问题,难以适配针对行人属性的多标签分类任务,提出一种多标签对抗领域自适应的行人属性识别算法。为适应行人属性多标签领域迁移任务,基于多标签特征分离模块,利用特定类别语义对主干网络提取的深度特征进行属性分离,有效提取特定属性的表征信息。针对不同领域属性特征分布差异较大的难点,提出基于分类器复用的多标签领域鉴别模块,同时实现多标签领域对齐和多标签分类,有效利用预测的鉴别信息捕获特征分布的多模式结构。实验结果表明:所提算法对比基准模型有明显提升,在平均准确率、准确率、召回率和F1指标上分别提升了4.49%、5.5%、11.44%和5.89%;所提算法为多标签领域自适应学习提供了新思路。

基于双路视觉Transformer的图像风格迁移
纪宗杏, 贝佳, 刘润泽, 任桐炜
2025, 51(7): 2488-2497. doi: 10.13700/j.bh.1001-5965.2023.0392
摘要:

图像风格迁移旨在根据风格图像调整内容图像的视觉属性,使其保留原始内容的同时呈现出特定风格样式,从而生成具有视觉吸引力的风格化图像。针对现有代表性方法大多未考虑不同图像域间的编码差异,专注提取图像局部特征而忽视了全局上下文信息的重要性,提出一种新型的基于双路视觉Transformer的图像风格迁移方法Bi-Trans,对内容图像域和风格图像域进行独立编码,提取风格参数向量以离散化表征图像风格,通过交叉注意力机制与条件实例归一化(CIN)将内容图像标定至目标域风格,从而生成风格化图像。实验结果表明,该方法无论是内容保留度还是风格还原度均优于现有方法。

基于旋转目标感知网络的SAR船舶检测方法
王梓懿, 尹嘉豪, 黄博斌, 高峰
2025, 51(7): 2498-2505. doi: 10.13700/j.bh.1001-5965.2023.0394
摘要:

目标尺寸变化多样且干扰因素多,目标有多种方向且训练样本数据量有限是当前合成孔径雷达(SAR)船舶检测方法主要面临的2个难题。为此,提出了一种用于SAR图像船舶检测的旋转目标感知网络RCAR-Net。主干网络使用基于多尺度Transformer架构的PVTv2,可以更好地保留特征图的局部连续性,同时更好地融合图像的多尺度特征;将旋转边界框与RetinaNet结合,有效减少了背景冗余以及噪声的干扰;引入Cutout方法进行数据增强,用现有样本的部分遮挡来扩大数据集,提高模型的鲁棒性和泛化能力;为了在保证检测精度的同时节省计算和内存开销,使用高效的CARAFE 算子对低分辨率的特征图进行上采样,提高多尺度融合效果。RCAR-Net在SSDD和HRSID这2个SAR船舶检测数据集的平均精度分别达到93.63%和90.37%,明显优于DPAN、PANet等方法,对于目标尺寸变化和噪声干扰具有较强的适应性。

针对航拍小目标检测的YOLOv7改进方法
刘一诺, 张琪, 王蓉, 李冲
2025, 51(7): 2506-2512. doi: 10.13700/j.bh.1001-5965.2023.0411
摘要:

针对目前检测技术在航拍小目标检测任务中存在的漏检率和误检率较高的问题,提出一种基于改进YOLOv7的航拍小目标检测方法。在主干网络中加入CBAM融合注意力机制,将特征图在空间和通道两方面合理分配网络权重,抑制背景干扰,提升检测精度;引入一种用于低分辨率图像和小目标细化检测的SPD-Conv模块,消除原有卷积模块的跨卷积层和池化层,解决了原始卷积模块中存在的细粒度信息丢失以及对于特征表示学习效率较低的问题;在处理后的DOTA航拍数据集上进行性能评估。实验结果表明:改进的YOLOv7算法在处理后的DOTA航拍数据集上准确率P达到83.7%,召回率R达到78.2%,均值平均精度mAP50达到81.5%,比原始YOLOv7算法精度提升了3.1%。说明所提算法可以有效降低漏检和错检率,具有良好性能。

多目视觉下基于融合特征的密集行人跟踪方法
黄煜杰, 陈凯, 王子源, 王紫腾
2025, 51(7): 2513-2525. doi: 10.13700/j.bh.1001-5965.2023.0416
摘要:

针对当前大部分计算机视觉跟踪方法仍不能有效解决目标受遮挡以及在摄像机视角中消失后重现等问题,基于融合特征相关性对多目标行人跟踪方法进行了研究:基于高斯混合模型(GMM)更新行人特征池以减少人员密集所导致的特征污染;基于K-means算法动态计算目标特征相似性阈值;利用融合特征相似性关联行人特征,加入单应性约束校验以判定行人的新增与重现。在公开数据集Shelf上进行实验,结果显示所提方法平均精确度相较其他算法分别提升16.05%、7.39%,平均成功率分别提升16.04%、4.16%。完整视频流下的平均错跟率为10.11%,在控制错跟数量方面取得显著效果之外还能够在行人重现后有效关联至原目标。

基于三元组哈希损失的半监督图像检索
邵伟志, 熊思宇, 潘丽丽
2025, 51(7): 2526-2537. doi: 10.13700/j.bh.1001-5965.2023.0451
摘要:

目前大多数基于深度学习的图像检索方法是在有监督条件下进行的,需要大量的标签数据,但实际应用中获取大量标签数据困难且成本高昂。此外,现有基于欧氏距离的三元组损失计算不够精确,使模型对图像相似性学习的能力欠佳。采用熵最小化伪标签、三元组损失和半监督学习技术,提出了一种新的半监督哈希图像检索模型(SSITL)。应用多阶段模型联合与锐化技术为未标记数据生成伪标签,并通过熵最小化处理以提高伪标签的置信度。同时,利用标记数据和未标记数据的聚类结果选择三元组,并采用基于通道权重矩阵的三元组哈希损失(CWT loss)帮助SSITL学习图像相似性。为了生成更好的哈希码,在2个汉明嵌入间使用MixUp进行混洗得到新的汉明嵌入以改善图像检索性能。实验结果表明:相较于其他方法,SSITL在相仿的时间开销下,在CIFAR-10和NUS-WIDE数据集上的检索平均准确率分别提高了1.2%和0.7%,强有力地验证了SSITL是一种优秀的半监督哈希图像检索模型。

面向基于知识图谱个性化推荐的诱导信息识别
倪文锴, 彭舒凡, 杜彦辉
2025, 51(7): 2538-2552. doi: 10.13700/j.bh.1001-5965.2023.0475
摘要:

互联网信息服务算法推荐管理,是构建智能信息时代国家互联网治理体系的重要手段。个性化推荐算法是互联网信息服务算法推荐的重要技术之一,知识图谱在个性化推荐算法中有广泛应用,同时知识图谱和推荐算法容易受到攻击者的数据投毒攻击,进而影响推荐结果,造成诱导信息传播。当前,针对此类诱导信息识别缺少有效的模型,基于此开展诱导信息识别模型研究,在对用户历史行为记录及用户偏好的演化过程进行分析的基础上,研究基于用户兴趣与群体感知的诱导信息检测方法,对相似用户群体历史偏好进行群体偏好建模,对具有共性特征的群体内异常曝光的信息进行离群点分析,构建集node2vec-side 物品表示、高斯混合模型(GMM)群体划分和 LUNAR 异常检测的诱导信息识别模型NGL,从用户偏好变化与推荐结果演变推理实现诱导信息识别。在RippleNet和MKR推荐系统上进行诱导信息识别实验,结果表明:NGL模型优于现有的异常检测模型。

基于人眼视觉机制的伪装目标检测网络
张冬冬, 王春平, 付强
2025, 51(7): 2553-2561. doi: 10.13700/j.bh.1001-5965.2023.0511
摘要:

伪装目标检测是一项新兴的视觉检测任务,旨在识别出完美隐藏在周围环境中的伪装目标,在多个领域中具有广泛应用。针对当前伪装目标检测算法无法准确、完整地识别目标结构和边界的问题,基于人类在观察伪装图像时的视觉感知过程,设计了一种生物启发式框架,并命名为定位和细化网络(PRNet)。利用Res2Net提取图像的原始特征,从多层级信息中挖掘目标的边缘线索;特别设计特征增强模块,在丰富全局上下文信息的同时能够扩大感受野;定位模块利用双注意力机制从通道和空间2个维度来定位目标的大致位置;细化模块同时关注前景和背景中的目标线索,利用多类型信息进一步细化目标的结构和边缘。在3个广泛使用的伪装目标检测基准数据集上的大量实验结果表明,所提网络的整体性能明显优于14种比较算法,在多种复杂场景中表现优异。

基于自适应阈值和速度优化的轻量化语义VSLAM方法
齐浩, 付悦欣, 胡祝华, 吴佳琪, 赵瑶池
2025, 51(7): 2562-2572. doi: 10.13700/j.bh.1001-5965.2023.0552
摘要:

视觉同步定位与地图构建(VSLAM)是一种利用视觉等传感器来获取未知环境信息的技术,广泛应用于无人驾驶、机器人、增强现实等领域。然而,室内场景下的VSLAM对动态对象进行像素级的语义分割存在较高的计算开销,并且光照变化使得动态物体的外观也发生变化,导致其与静态环境产生遮挡或混淆。针对以上问题,提出了一种基于自适应阈值和速度优化的轻量化语义VSLAM模型。采用了轻量化的一阶段目标检测网络YOLOv7-tiny,结合光流算法,有效地检测了图像的动态区域,并对不稳定特征点进行了剔除。同时,特征点提取算法基于输入图像的对比度信息,自适应地调整阈值。结合二进制词袋与局部建图线程精简的优化方法,加快了加载和匹配速度,提高了系统在室内动态场景下的运行速度。实验结果表明:所提算法在室内高动态场景下能够有效地剔除动态特征点,提高了相机的定位精度。在运行速率方面平均处理速度达到了19.8 FPS,在实际场景下可以满足实时性的需求。

常见问答