高级搜索

基于多模态特征融合监督的RGB-D图像显著性检测

刘政怡 段群涛 石松 赵鹏

引用本文: 刘政怡, 段群涛, 石松, 赵鹏. 基于多模态特征融合监督的RGB-D图像显著性检测[J]. 电子与信息学报, doi: 10.11999/JEIT190297 shu
Citation:  Zhengyi LIU, Quntao DUAN, Song SHI, Peng ZHAO. RGB-D Image Saliency Detection Based on Multi-modal Feature-fused Supervision[J]. Journal of Electronics and Information Technology, doi: 10.11999/JEIT190297 shu

基于多模态特征融合监督的RGB-D图像显著性检测

    作者简介: 刘政怡: 女,1978年生,副教授,研究方向为计算机视觉;
    段群涛: 女,1993年生,硕士生,研究方向为图像显著性检测;
    石松: 男,1993年生,硕士生,研究方向为图像显著性检测;
    赵鹏: 女,1976年生,副教授,研究方向为智能信息处理、机器学习
    通讯作者: 刘政怡,liuzywen@ahu.edu.cn
  • 基金项目: 安徽省自然科学基金(1908085MF182);国家自然科学基金(61602004)

摘要: RGB-D图像显著性检测是在一组成对的RGB和Depth图中识别出视觉上最显著突出的目标区域。已有的双流网络,同等对待多模态的RGB和Depth图像数据,在提取特征方面几乎一致。然而,低层的Depth特征存在较大噪声,不能很好地表征图像特征。因此,该文提出一种多模态特征融合监督的RGB-D图像显著性检测网络,通过两个独立流分别学习RGB和Depth数据,使用双流侧边监督模块分别获取网络各层基于RGB和Depth特征的显著图,然后采用多模态特征融合模块来融合后3层RGB和Depth高维信息生成高层显著预测结果。网络从第1层至第5层逐步生成RGB和Depth各模态特征,然后从第5层到第3层,利用高层指导低层的方式产生多模态融合特征,接着从第2层到第1层,利用第3层产生的融合特征去逐步地优化前两层的RGB特征,最终输出既包含RGB低层信息又融合RGB-D高层多模态信息的显著图。在3个公开数据集上的实验表明,该文所提网络因为使用了双流侧边监督模块和多模态特征融合模块,其性能优于目前主流的RGB-D显著性检测模型,具有较强的鲁棒性。

English

    1. [1]

      SHAO Ling and BRADY M. Specific object retrieval based on salient regions[J]. Pattern Recognition, 2006, 39(10): 1932–1948. doi: 10.1016/j.patcog.2006.04.010

    2. [2]

      GUO Chenlei and ZHANG Liming. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression[J]. IEEE Transactions on Image Processing, 2010, 19(1): 185–198. doi: 10.1109/TIP.2009.2030969

    3. [3]

      MAHADEVAN V and VASCONCELOS N. Biologically inspired object tracking using center-surround saliency mechanisms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 541–554. doi: 10.1109/TPAMI.2012.98

    4. [4]

      QU Liangqiong, HE Shengfeng, ZHANG Jiawei, et al. RGBD salient object detection via deep fusion[J]. IEEE Transactions on Image Processing, 2017, 26(5): 2274–2285. doi: 10.1109/TIP.2017.2682981

    5. [5]

      CHEN Hao, LI Youfu, and SU Dan. Multi-modal fusion network with multi-scale multi-path and cross-modal interactions for RGB-D salient object detection[J]. Pattern Recognition, 2019, 86: 376–385. doi: 10.1016/j.patcog.2018.08.007

    6. [6]

      HAN Junwei, CHEN Hao, LIU Nian, et al. CNNs-Based RGB-D saliency detection via cross-view transfer and multiview fusion[J]. IEEE Transactions on Cybernetics, 2018, 48(11): 3171–3183. doi: 10.1109/TCYB.2017.2761775

    7. [7]

      CHEN Hao, LI Youfu, and SU Dan. RGB-D saliency detection by multi-stream late fusion network[C]. The 11th International Conference on Computer Vision Systems, Shenzhen, China, 2017: 459-468. doi: 10.1007/978-3-319-68345-4_41.

    8. [8]

      CHEN Hao and LI Youfu. Progressively complementarity-aware fusion network for RGB-D salient object detection[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 3051–3060.

    9. [9]

      SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. 2015 International Conference on Learning Representations, San Diego, USA, 2015: 1150–1210.

    10. [10]

      LEE C Y, XIE Saining, GALLAGHER P, et al. Deeply-supervised nets[C]. The 18th International Conference on Artificial Intelligence and Statistics, San Diego, USA, 2015: 562–570.

    11. [11]

      XIE Saining and TU Zhuowen. Holistically-nested edge detection[J]. International Journal of Computer Vision, 2017, 125(1/3): 3–18. doi: 10.1007/s11263-017-1004-z

    12. [12]

      HOU Qibin, CHENG Mingming, HU Xiaowei, et al. Deeply supervised salient object detection with short connections[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 815–828. doi: 10.1109/TPAMI.2018.2815688

    13. [13]

      DU Dapeng, XU Xiangyang, REN Tongwei, et al. Depth images could tell us more: Enhancing depth discriminability for RGB-D scene recognition[C]. 2018 IEEE International Conference on Multimedia and Expo, San Diego, USA, 2018: 1–6. doi: 10.1109/ICME.2018.8486573.

    14. [14]

      SONG Xinhang, HERRANZ L, and JIANG Shuqiang. Depth CNNs for RGB-D scene recognition: Learning from scratch better than transferring from RGB-CNNs[C]. The 31st AAAI Conference on Artificial Intelligence, San Francisco, USA, 2017: 4271–4277.

    15. [15]

      LIU Nian and HAN Junwei. DHSnet: Deep hierarchical saliency network for salient object detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 678–686. doi: 10.1109/CVPR.2016.80.

    16. [16]

      KIM H J, DUNN E, and FRAHM J M. Learned contextual feature reweighting for image geo-localization[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3251–3260. doi: 10.1109/CVPR.2017.346.

    17. [17]

      PENG Houwen, LI Bing, XIONG Weihua, et al. RGBD salient object detection: A benchmark and algorithms[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 92–109. doi: 10.1007/978-3-319-10578-9_7.

    18. [18]

      JU Ran, GE Ling, GENG Wenjing, et al. Depth saliency based on anisotropic center-surround difference[C]. 2014 IEEE International Conference on Image Processing, Paris, France, 2014: 1115–1119. doi: 10.1109/ICIP.2014.7025222.

    19. [19]

      NIU Yuzhen, GENG Yujie, LI Xueqing, et al. Leveraging stereopsis for saliency analysis[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 454–461. doi: 10.1109/CVPR.2012.6247708.

    20. [20]

      MARTIN D R, FOWLKES C C, and MALIK J. Learning to detect natural image boundaries using local brightness, color, and texture cues[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(5): 530–549. doi: 10.1109/TPAMI.2004.1273918

    21. [21]

      FAN Dengping, CHENG Mingming, LIU Yun, et al. Structure-measure: A new way to evaluate foreground maps[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 4558–4567.

    22. [22]

      FAN Dengping, GONG Cheng, CAO Yang, et al. Enhanced-alignment measure for binary foreground map evaluation[C]. The 27th International Joint Conference on Artificial Intelligence, Stockholm, 2018: 698–704.

    23. [23]

      FAN Dengping, CHENG Mingming, LIU Jiangjiang, et al. Salient objects in clutter: Bringing salient object detection to the foreground[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 186–202.

    24. [24]

      JIA Yangqing, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]. The 22nd ACM International Conference on Multimedia, Orlando, USA, 2014: 675–678. doi: 10.1145/2647868.2654889.

    25. [25]

      CHEN Hao and LI Youfu. Three-stream attention-aware network for RGB-D salient object detection[J]. IEEE Transactions on Image Processing, 2019, 28(6): 2825–2835. doi: 10.1109/TIP.2019.2891104

    1. [1]

      刘宏哲, 杨少鹏, 袁家政, 王雪峤, 薛建明. 基于单一神经网络的多尺度人脸检测. 电子与信息学报,

    2. [2]

      杜兰, 魏迪, 李璐, 郭昱辰. 基于半监督学习的SAR目标检测网络. 电子与信息学报,

    3. [3]

      吴泽民, 王军, 胡磊, 田畅, 曾明勇, 杜麟. 基于卷积神经网络与全局优化的协同显著性检测. 电子与信息学报,

    4. [4]

      郭晨, 简涛, 徐从安, 何友, 孙顺. 基于深度多尺度一维卷积神经网络的雷达舰船目标识别. 电子与信息学报,

    5. [5]

      杜兰, 刘彬, 王燕, 刘宏伟, 代慧. 基于卷积神经网络的SAR图像目标检测算法. 电子与信息学报,

    6. [6]

      刘勤让, 刘崇阳. 利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计. 电子与信息学报,

    7. [7]

      汝小虎, 柳征, 姜文利, 黄知涛. 带虚警抑制的基于归一化残差的野值检测方法. 电子与信息学报,

    8. [8]

      杨宏宇, 王峰岩. 基于深度卷积神经网络的气象雷达噪声图像语义分割方法. 电子与信息学报,

    9. [9]

      秦华标, 曹钦平. 基于FPGA的卷积神经网络硬件加速器设计. 电子与信息学报,

    10. [10]

      王鑫, 李可, 宁晨, 黄凤辰. 基于深度卷积神经网络和多核学习的遥感图像分类方法. 电子与信息学报,

    11. [11]

      吕晓琪, 吴凉, 谷宇, 张明, 李菁. 基于深度卷积神经网络的低剂量CT肺部去噪. 电子与信息学报,

    12. [12]

      李寰宇, 毕笃彦, 查宇飞, 杨源. 一种易于初始化的类卷积神经网络视觉跟踪算法. 电子与信息学报,

    13. [13]

      王巍, 周凯利, 王伊昌, 王广, 袁军. 基于快速滤波算法的卷积神经网络加速器设计. 电子与信息学报,

    14. [14]

      贺丰收, 何友, 刘准钆, 徐从安. 卷积神经网络在雷达自动目标识别中的研究进展. 电子与信息学报,

    15. [15]

      李祖贺, 樊养余, 王凤琴. YUV空间中基于稀疏自动编码器的无监督特征学习. 电子与信息学报,

    16. [16]

      伍家松, 达臻, 魏黎明, SENHADJILotfi, 舒华忠. 基于分裂基-2/(2a)FFT算法的卷积神经网络加速性能的研究. 电子与信息学报,

    17. [17]

      袁野, 贾克斌, 刘鹏宇. 基于深度卷积神经网络的多元医学信号多级上下文自编码器. 电子与信息学报,

    18. [18]

      夏朝阳, 周成龙, 介钧誉, 周涛, 汪相锋, 徐丰. 基于多通道调频连续波毫米波雷达的微动手势识别. 电子与信息学报,

    19. [19]

      王斐, 吴仕超, 刘少林, 张亚徽, 魏颖. 基于脑电信号深度迁移学习的驾驶疲劳检测. 电子与信息学报,

    20. [20]

      谢金宝, 侯永进, 康守强, 李佰蔚, 张霄. 基于语义理解注意力神经网络的多元特征融合中文文本分类. 电子与信息学报,

  • 图 1  本文方法模型

    图 2  双流侧边监督模块

    图 3  多模态特征融合方法

    图 4  与4种模型的PR曲线对比

    图 5  与4种模型的可视化对比

    图 6  DY可视化

    图 7  本文模型可视化

    表 1  在F-measure, MAE, S-measure, E-measure上与其他模型的对比

    算法 NLPR1000 NJU2000 STEREO
    F MAE S E F MAE S E F MAE S E
    TAN 0.7956 0.0410 0.8861 0.9161 0.8442 0.0605 0.8785 0.8932 0.8489 0.0591 0.8775 0.9108
    PCFN 0.7948 0.0437 0.8736 0.9163 0.8440 0.0591 0.8770 0.8966 0.8450 0.0606 0.8800 0.9054
    MMCI 0.7299 0.0591 0.8557 0.8717 0.8122 0.0790 0.8581 0.8775 0.8120 0.0796 0.8599 0.8896
    DF 0.7348 0.0891 0.7909 0.8600 0.7703 0.1406 0.7596 0.8383 0.7650 0.1395 0.7664 0.8438
    本文模型 0.8629 0.0318 0.9117 0.9464 0.8578 0.0541 0.8852 0.8956 0.8622 0.0519 0.8894 0.9130
    下载: 导出CSV

    表 2  双流侧边监督模块有效性实验对比结果

    算法 NLPR1000 NJU2000 STEREO
    F MAE S E F MAE S E F MAE S E
    NDS 0.8358 0.0340 0.9085 0.9336 0.8502 0.0568 0.8848 0.8902 0.8524 0.0552 0.8879 0.9066
    本文模型(DS) 0.8629 0.0318 0.9117 0.9464 0.8578 0.0541 0.8852 0.8956 0.8622 0.0519 0.8894 0.9130
    下载: 导出CSV

    表 3  多尺度模块有效性实验对比结果

    算法 NLPR1000 NJU2000 STEREO
    F MAE S E F MAE S E F MAE S E
    BN 0.8488 0.0340 0.9059 0.9398 0.8504 0.0566 0.8814 0.8928 0.8573 0.0547 0.8848 0.9093
    本文模型 0.8629 0.0318 0.9117 0.9464 0.8578 0.0541 0.8852 0.8956 0.8622 0.0519 0.8894 0.9130
    下载: 导出CSV

    表 4  低维Depth特征实验对比结果

    算法 NLPR1000 NJU2000 STEREO
    F MAE S E F MAE S E F MAE S E
    DY 0.8715 0.1087 0.8187 0.9479 0.8250 0.1310 0.8414 0.8785 0.8355 0.1277 0.8541 0.8984
    本文模型 0.8629 0.0318 0.9117 0.9464 0.8578 0.0541 0.8852 0.8956 0.8622 0.0519 0.8894 0.9130
    下载: 导出CSV
  • 加载中
图(7)表(4)
计量
  • PDF下载量:  38
  • 文章访问数:  894
  • HTML全文浏览量:  604
文章相关
  • 通讯作者:  刘政怡, liuzywen@ahu.edu.cn
  • 收稿日期:  2019-04-29
  • 录用日期:  2019-08-31
  • 网络出版日期:  2019-09-05
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章