高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多模态特征融合监督的RGB-D图像显著性检测

刘政怡 段群涛 石松 赵鹏

刘政怡, 段群涛, 石松, 赵鹏. 基于多模态特征融合监督的RGB-D图像显著性检测[J]. 电子与信息学报, 2020, 42(4): 997-1004. doi: 10.11999/JEIT190297
引用本文: 刘政怡, 段群涛, 石松, 赵鹏. 基于多模态特征融合监督的RGB-D图像显著性检测[J]. 电子与信息学报, 2020, 42(4): 997-1004. doi: 10.11999/JEIT190297
Zhengyi LIU, Quntao DUAN, Song SHI, Peng ZHAO. RGB-D Image Saliency Detection Based on Multi-modal Feature-fused Supervision[J]. Journal of Electronics and Information Technology, 2020, 42(4): 997-1004. doi: 10.11999/JEIT190297
Citation: Zhengyi LIU, Quntao DUAN, Song SHI, Peng ZHAO. RGB-D Image Saliency Detection Based on Multi-modal Feature-fused Supervision[J]. Journal of Electronics and Information Technology, 2020, 42(4): 997-1004. doi: 10.11999/JEIT190297

基于多模态特征融合监督的RGB-D图像显著性检测

doi: 10.11999/JEIT190297
基金项目: 安徽省自然科学基金(1908085MF182),国家自然科学基金(61602004),安徽高校自然科学研究项目(KJ2019A0034)
详细信息
    作者简介:

    刘政怡:女,1978年生,副教授,研究方向为计算机视觉

    段群涛:女,1993年生,硕士生,研究方向为图像显著性检测

    石松:男,1993年生,硕士生,研究方向为图像显著性检测

    赵鹏:女,1976年生,副教授,研究方向为智能信息处理、机器学习

    通讯作者:

    刘政怡 liuzywen@ahu.edu.cn

  • 中图分类号: TP391.41

RGB-D Image Saliency Detection Based on Multi-modal Feature-fused Supervision

Funds: The Provincial Natural Science Foundation of Anhui (1908085MF182), The National Natural Science Foundation of China (61602004), The Anhui University Natural Science Research Project (KJ2019A0034)
  • 摘要: RGB-D图像显著性检测是在一组成对的RGB和Depth图中识别出视觉上最显著突出的目标区域。已有的双流网络,同等对待多模态的RGB和Depth图像数据,在提取特征方面几乎一致。然而,低层的Depth特征存在较大噪声,不能很好地表征图像特征。因此,该文提出一种多模态特征融合监督的RGB-D图像显著性检测网络,通过两个独立流分别学习RGB和Depth数据,使用双流侧边监督模块分别获取网络各层基于RGB和Depth特征的显著图,然后采用多模态特征融合模块来融合后3层RGB和Depth高维信息生成高层显著预测结果。网络从第1层至第5层逐步生成RGB和Depth各模态特征,然后从第5层到第3层,利用高层指导低层的方式产生多模态融合特征,接着从第2层到第1层,利用第3层产生的融合特征去逐步地优化前两层的RGB特征,最终输出既包含RGB低层信息又融合RGB-D高层多模态信息的显著图。在3个公开数据集上的实验表明,该文所提网络因为使用了双流侧边监督模块和多模态特征融合模块,其性能优于目前主流的RGB-D显著性检测模型,具有较强的鲁棒性。
  • 图  1  本文方法模型

    图  2  双流侧边监督模块

    图  3  多模态特征融合方法

    图  4  与4种模型的PR曲线对比

    图  5  与4种模型的可视化对比

    图  6  DY可视化

    图  7  本文模型可视化

    表  1  在F-measure, MAE, S-measure, E-measure上与其他模型的对比

    算法 NLPR1000 NJU2000 STEREO
    F MAE S E F MAE S E F MAE S E
    TAN 0.7956 0.0410 0.8861 0.9161 0.8442 0.0605 0.8785 0.8932 0.8489 0.0591 0.8775 0.9108
    PCFN 0.7948 0.0437 0.8736 0.9163 0.8440 0.0591 0.8770 0.8966 0.8450 0.0606 0.8800 0.9054
    MMCI 0.7299 0.0591 0.8557 0.8717 0.8122 0.0790 0.8581 0.8775 0.8120 0.0796 0.8599 0.8896
    DF 0.7348 0.0891 0.7909 0.8600 0.7703 0.1406 0.7596 0.8383 0.7650 0.1395 0.7664 0.8438
    本文模型 0.8629 0.0318 0.9117 0.9464 0.8578 0.0541 0.8852 0.8956 0.8622 0.0519 0.8894 0.9130
    下载: 导出CSV

    表  2  双流侧边监督模块有效性实验对比结果

    算法 NLPR1000 NJU2000 STEREO
    F MAE S E F MAE S E F MAE S E
    NDS 0.8358 0.0340 0.9085 0.9336 0.8502 0.0568 0.8848 0.8902 0.8524 0.0552 0.8879 0.9066
    本文模型(DS) 0.8629 0.0318 0.9117 0.9464 0.8578 0.0541 0.8852 0.8956 0.8622 0.0519 0.8894 0.9130
    下载: 导出CSV

    表  3  多尺度模块有效性实验对比结果

    算法 NLPR1000 NJU2000 STEREO
    F MAE S E F MAE S E F MAE S E
    BN 0.8488 0.0340 0.9059 0.9398 0.8504 0.0566 0.8814 0.8928 0.8573 0.0547 0.8848 0.9093
    本文模型 0.8629 0.0318 0.9117 0.9464 0.8578 0.0541 0.8852 0.8956 0.8622 0.0519 0.8894 0.9130
    下载: 导出CSV

    表  4  低维Depth特征实验对比结果

    算法 NLPR1000 NJU2000 STEREO
    F MAE S E F MAE S E F MAE S E
    DY 0.8715 0.1087 0.8187 0.9479 0.8250 0.1310 0.8414 0.8785 0.8355 0.1277 0.8541 0.8984
    本文模型 0.8629 0.0318 0.9117 0.9464 0.8578 0.0541 0.8852 0.8956 0.8622 0.0519 0.8894 0.9130
    下载: 导出CSV
  • [1] SHAO Ling and BRADY M. Specific object retrieval based on salient regions[J]. Pattern Recognition, 2006, 39(10): 1932–1948. doi:  10.1016/j.patcog.2006.04.010
    [2] GUO Chenlei and ZHANG Liming. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression[J]. IEEE Transactions on Image Processing, 2010, 19(1): 185–198. doi:  10.1109/TIP.2009.2030969
    [3] MAHADEVAN V and VASCONCELOS N. Biologically inspired object tracking using center-surround saliency mechanisms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 541–554. doi:  10.1109/TPAMI.2012.98
    [4] QU Liangqiong, HE Shengfeng, ZHANG Jiawei, et al. RGBD salient object detection via deep fusion[J]. IEEE Transactions on Image Processing, 2017, 26(5): 2274–2285. doi:  10.1109/TIP.2017.2682981
    [5] CHEN Hao, LI Youfu, and SU Dan. Multi-modal fusion network with multi-scale multi-path and cross-modal interactions for RGB-D salient object detection[J]. Pattern Recognition, 2019, 86: 376–385. doi:  10.1016/j.patcog.2018.08.007
    [6] HAN Junwei, CHEN Hao, LIU Nian, et al. CNNs-Based RGB-D saliency detection via cross-view transfer and multiview fusion[J]. IEEE Transactions on Cybernetics, 2018, 48(11): 3171–3183. doi:  10.1109/TCYB.2017.2761775
    [7] CHEN Hao, LI Youfu, and SU Dan. RGB-D saliency detection by multi-stream late fusion network[C]. The 11th International Conference on Computer Vision Systems, Shenzhen, China, 2017: 459-468. doi: 10.1007/978-3-319-68345-4_41.
    [8] CHEN Hao and LI Youfu. Progressively complementarity-aware fusion network for RGB-D salient object detection[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 3051–3060.
    [9] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. 2015 International Conference on Learning Representations, San Diego, USA, 2015: 1150–1210.
    [10] LEE C Y, XIE Saining, GALLAGHER P, et al. Deeply-supervised nets[C]. The 18th International Conference on Artificial Intelligence and Statistics, San Diego, USA, 2015: 562–570.
    [11] XIE Saining and TU Zhuowen. Holistically-nested edge detection[J]. International Journal of Computer Vision, 2017, 125(1/3): 3–18. doi:  10.1007/s11263-017-1004-z
    [12] HOU Qibin, CHENG Mingming, HU Xiaowei, et al. Deeply supervised salient object detection with short connections[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 815–828. doi:  10.1109/TPAMI.2018.2815688
    [13] DU Dapeng, XU Xiangyang, REN Tongwei, et al. Depth images could tell us more: Enhancing depth discriminability for RGB-D scene recognition[C]. 2018 IEEE International Conference on Multimedia and Expo, San Diego, USA, 2018: 1–6. doi: 10.1109/ICME.2018.8486573.
    [14] SONG Xinhang, HERRANZ L, and JIANG Shuqiang. Depth CNNs for RGB-D scene recognition: Learning from scratch better than transferring from RGB-CNNs[C]. The 31st AAAI Conference on Artificial Intelligence, San Francisco, USA, 2017: 4271–4277.
    [15] LIU Nian and HAN Junwei. DHSnet: Deep hierarchical saliency network for salient object detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 678–686. doi: 10.1109/CVPR.2016.80.
    [16] KIM H J, DUNN E, and FRAHM J M. Learned contextual feature reweighting for image geo-localization[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3251–3260. doi: 10.1109/CVPR.2017.346.
    [17] PENG Houwen, LI Bing, XIONG Weihua, et al. RGBD salient object detection: A benchmark and algorithms[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 92–109. doi: 10.1007/978-3-319-10578-9_7.
    [18] JU Ran, GE Ling, GENG Wenjing, et al. Depth saliency based on anisotropic center-surround difference[C]. 2014 IEEE International Conference on Image Processing, Paris, France, 2014: 1115–1119. doi: 10.1109/ICIP.2014.7025222.
    [19] NIU Yuzhen, GENG Yujie, LI Xueqing, et al. Leveraging stereopsis for saliency analysis[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 454–461. doi: 10.1109/CVPR.2012.6247708.
    [20] MARTIN D R, FOWLKES C C, and MALIK J. Learning to detect natural image boundaries using local brightness, color, and texture cues[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(5): 530–549. doi:  10.1109/TPAMI.2004.1273918
    [21] FAN Dengping, CHENG Mingming, LIU Yun, et al. Structure-measure: A new way to evaluate foreground maps[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 4558–4567.
    [22] FAN Dengping, GONG Cheng, CAO Yang, et al. Enhanced-alignment measure for binary foreground map evaluation[C]. The 27th International Joint Conference on Artificial Intelligence, Stockholm, 2018: 698–704.
    [23] FAN Dengping, CHENG Mingming, LIU Jiangjiang, et al. Salient objects in clutter: Bringing salient object detection to the foreground[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 186–202.
    [24] JIA Yangqing, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]. The 22nd ACM International Conference on Multimedia, Orlando, USA, 2014: 675–678. doi: 10.1145/2647868.2654889.
    [25] CHEN Hao and LI Youfu. Three-stream attention-aware network for RGB-D salient object detection[J]. IEEE Transactions on Image Processing, 2019, 28(6): 2825–2835. doi:  10.1109/TIP.2019.2891104
  • [1] 申滨, 王欣, 陈思吉, 崔太平.  基于机器学习主用户发射模式分类的蜂窝认知无线电网络频谱感知, 电子与信息学报. doi: 10.11999/JEIT191012
    [2] 赵海涛, 程慧玲, 丁仪, 张晖, 朱洪波.  基于深度学习的车联边缘网络交通事故风险预测算法研究, 电子与信息学报. doi: 10.11999/JEIT190595
    [3] 柯丽, 王丹妮, 杜强, 姜楚迪.  基于卷积长短时记忆网络的心律失常分类方法, 电子与信息学报. doi: 10.11999/JEIT190712
    [4] 夏朝阳, 周成龙, 介钧誉, 周涛, 汪相锋, 徐丰.  基于多通道调频连续波毫米波雷达的微动手势识别, 电子与信息学报. doi: 10.11999/JEIT190797
    [5] 袁野, 贾克斌, 刘鹏宇.  基于深度卷积神经网络的多元医学信号多级上下文自编码器, 电子与信息学报. doi: 10.11999/JEIT190135
    [6] 贺丰收, 何友, 刘准钆, 徐从安.  卷积神经网络在雷达自动目标识别中的研究进展, 电子与信息学报. doi: 10.11999/JEIT180899
    [7] 牛伟纳, 蒋天宇, 张小松, 谢娇, 张俊哲, 赵振扉.  基于流量时空特征的fast-flux僵尸网络检测方法, 电子与信息学报. doi: 10.11999/JEIT190724
    [8] 赵斌, 王春平, 付强.  显著性背景感知的多尺度红外行人检测方法, 电子与信息学报. doi: 10.11999/JEIT190761
    [9] 刘小燕, 李照明, 段嘉旭, 项天远.  基于卷积神经网络的印刷电路板色环电阻检测与定位方法, 电子与信息学报. doi: 10.11999/JEIT190608
    [10] 申铉京, 沈哲, 黄永平, 王玉.  基于非局部操作的深度卷积神经网络车位占用检测算法, 电子与信息学报. doi: 10.11999/JEIT190349
    [11] 缪祥华, 单小撤.  基于密集连接卷积神经网络的入侵检测技术研究, 电子与信息学报. doi: 10.11999/JEIT190655
    [12] 杜兰, 魏迪, 李璐, 郭昱辰.  基于半监督学习的SAR目标检测网络, 电子与信息学报. doi: 10.11999/JEIT190783
    [13] 谢金宝, 侯永进, 康守强, 李佰蔚, 张霄.  基于语义理解注意力神经网络的多元特征融合中文文本分类, 电子与信息学报. doi: 10.11999/JEIT170815
    [14] 吕晓琪, 吴凉, 谷宇, 张明, 李菁.  基于深度卷积神经网络的低剂量CT肺部去噪, 电子与信息学报. doi: 10.11999/JEIT170769
    [15] 刘勤让, 刘崇阳.  利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计, 电子与信息学报. doi: 10.11999/JEIT170819
    [16] 伍家松, 达臻, 魏黎明, SENHADJILotfi, 舒华忠.  基于分裂基-2/(2a)FFT算法的卷积神经网络加速性能的研究, 电子与信息学报. doi: 10.11999/JEIT160357
    [17] 李祖贺, 樊养余, 王凤琴.  YUV空间中基于稀疏自动编码器的无监督特征学习, 电子与信息学报. doi: 10.11999/JEIT150557
    [18] 李寰宇, 毕笃彦, 查宇飞, 杨源.  一种易于初始化的类卷积神经网络视觉跟踪算法, 电子与信息学报. doi: 10.11999/JEIT150600
    [19] 杜兰, 刘彬, 王燕, 刘宏伟, 代慧.  基于卷积神经网络的SAR图像目标检测算法, 电子与信息学报. doi: 10.11999/JEIT161032
    [20] 汝小虎, 柳征, 姜文利, 黄知涛.  带虚警抑制的基于归一化残差的野值检测方法, 电子与信息学报. doi: 10.11999/JEIT150469
  • 加载中
  • 图(7) / 表ll (4)
    计量
    • 文章访问数:  2866
    • HTML全文浏览量:  1145
    • PDF下载量:  78
    • 被引次数: 0
    出版历程
    • 收稿日期:  2019-04-29
    • 修回日期:  2019-08-31
    • 网络出版日期:  2019-09-05
    • 刊出日期:  2020-06-04

    目录

      /

      返回文章
      返回

      官方微信,欢迎关注