高级搜索

基于多模态生成对抗网络和三元组损失的说话人识别

陈莹 陈湟康

引用本文: 陈莹, 陈湟康. 基于多模态生成对抗网络和三元组损失的说话人识别[J]. 电子与信息学报, 2020, 42(2): 379-385. doi: 10.11999/JEIT190154 shu
Citation:  Ying CHEN, Huangkang CHEN. Speaker Recognition Based on Multimodal GenerativeAdversarial Nets with Triplet-loss[J]. Journal of Electronics and Information Technology, 2020, 42(2): 379-385. doi: 10.11999/JEIT190154 shu

基于多模态生成对抗网络和三元组损失的说话人识别

    作者简介: 陈莹: 女,1976年生,教授,博士,研究方向为信息融合、模式识别;
    陈湟康: 男,1994年生,硕士生,研究方向为说话人识别
    通讯作者: 陈莹,chenying@jiangnan.edu.cn
  • 基金项目: 国家自然科学基金(61573168)

摘要: 为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离。最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份。实验结果表明,该方法能有效地提升说话人识别准确率。

English

    1. [1]

      BREDIN H and CHOLLET G. Audio-visual speech synchrony measure for talking-face identity verification[C]. 2007 IEEE International Conference on Acoustics, Speech and Signal Processing, Honolulu, USA, 2007: Ⅱ-233–Ⅱ-236.

    2. [2]

      HAGHIGHAT M, ABDEL-MOTTALEB M, and ALHALABI W. Discriminant correlation analysis: Real-time feature level fusion for multimodal biometric recognition[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(9): 1984–1996. doi: 10.1109/TIFS.2016.2569061

    3. [3]

      CHENG H T, CHAO Y H, YEH S L, et al. An efficient approach to multimodal person identity verification by fusing face and voice information[C]. 2005 IEEE International Conference on Multimedia and Expo, Amsterdam, Netherlands, 2005: 542–545.

    4. [4]

      SOLTANE M, DOGHMANE N, and GUERSI N. Face and speech based multi-modal biometric authentication[J]. International Journal of Advanced Science and Technology, 2010, 21(6): 41–56.

    5. [5]

      HU Yongtao, REN J S J, DAI Jingwen, et al. Deep multimodal speaker naming[C]. The 23rd ACM International Conference on Multimedia, Brisbane, Australia, 2015: 1107–1110.

    6. [6]

      GENG Jiajia, LIU Xin, and CHEUNG Y M. Audio-visual speaker recognition via multi-modal correlated neural networks[C]. 2016 IEEE/WIC/ACM International Conference on Web Intelligence Workshops, Omaha, USA, 2016: 123–128.

    7. [7]

      REN J, HU Yongtao, TAI Y W, et al. Look, listen and learn-a multimodal LSTM for speaker identification[C]. The 30th AAAI Conference on Artificial Intelligence, Phoenix, USA, 2016: 3581–3587.

    8. [8]

      LIU Yuhang, LIU Xin, FAN Wentao, et al. Efficient audio-visual speaker recognition via deep heterogeneous feature fusion[C]. The 12th Chinese Conference on Biometric Recognition, Shenzhen, China, 2017: 575–583.

    9. [9]

      GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]. The 27th International Conference on Neural Information Processing Systems, Montreal, Canada, 2014: 2672–2680.

    10. [10]

      唐贤伦, 杜一铭, 刘雨微, 等. 基于条件深度卷积生成对抗网络的图像识别方法[J]. 自动化学报, 2018, 44(5): 855–864.
      TANG Xianlun, DU Yiming, LIU Yuwei, et al. Image recognition with conditional deep convolutional generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 855–864.

    11. [11]

      孙亮, 韩毓璇, 康文婧, 等. 基于生成对抗网络的多视图学习与重构算法[J]. 自动化学报, 2018, 44(5): 819–828.
      SUN Liang, HAN Yuxuan, KANG Wenjing, et al. Multi-view learning and reconstruction algorithms via generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 819–828.

    12. [12]

      郑文博, 王坤峰, 王飞跃. 基于贝叶斯生成对抗网络的背景消减算法[J]. 自动化学报, 2018, 44(5): 878–890.
      ZHENG Wenbo, WANG Kunfeng, and WANG Feiyue. Background subtraction algorithm with Bayesian generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 878–890.

    13. [13]

      RADFORD A, METZ L, and CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv: 1511.06434 , 2015.

    14. [14]

      DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a laplacian pyramid of adversarial networks[C]. The 28th International Conference on Neural Information Processing Systems, Montreal, Canada, 2015: 1486–1494.

    15. [15]

      LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 105–114.

    16. [16]

      WANG Xiaolong and GUPTA A. Generative image modeling using style and structure adversarial networks[C]. The 14th European Conference on Computer Vision, Amsterdam, Netherlands, 2016: 318–335.

    17. [17]

      PENG Yuxin and QI Jinwei. CM-GANs: Cross-modal generative adversarial networks for common representation learning[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2019, 15(1): 98–121.

    18. [18]

      HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4): 212–223.

    1. [1]

      李健伟, 曲长文, 彭书娟, 江源. 基于生成对抗网络和线上难例挖掘的SAR图像舰船目标检测. 电子与信息学报, 2019, 41(1): 143-149.

    2. [2]

      曹志义, 牛少彰, 张继威. 基于半监督学习生成对抗网络的人脸还原算法研究. 电子与信息学报, 2018, 40(2): 323-330.

    3. [3]

      王伟, 韩纪庆, 郑铁然, 郑贵滨, 陶耀. 基于Fisher判别字典学习的说话人识别. 电子与信息学报, 2016, 38(2): 367-372.

    4. [4]

      梁春燕, 袁文浩, 李艳玲, 夏斌, 孙文珠. 基于判别邻域嵌入算法的说话人识别. 电子与信息学报, 2019, 41(7): 1774-1778.

    5. [5]

      黄伟, 戴蓓蒨, 李辉. 基于分类特征空间高斯混合模型和神经网络融合的说话人识别. 电子与信息学报, 2004, 26(10): 1607-1612.

    6. [6]

      白莹, 赵振东, 戚银城, 王斌, 郭建勇. 基于小波神经网络的与文本无关说话人识别方法研究. 电子与信息学报, 2006, 28(6): 1036-1039.

    7. [7]

      陈存宝, 赵力. 嵌入自联想神经网络的高斯混合模型说话人辨认. 电子与信息学报, 2010, 32(3): 528-532.

    8. [8]

      柳欣, 李鹤洋, 钟必能, 杜吉祥. 结合有监督联合一致性自编码器的跨音视频说话人标注. 电子与信息学报, 2018, 40(7): 1635-1642.

    9. [9]

      邓浩江, 王守觉, 杜利民. 优先度排序RBF神经网络在与文本无关说话人确认中的应用. 电子与信息学报, 2003, 25(9): 1153-1159.

    10. [10]

      薛丽萍, 尹俊勋, 周家锐, 纪震. 混合粒子对优化算法在说话人识别中的应用. 电子与信息学报, 2009, 31(6): 1359-1362.

    11. [11]

      吴晓娟, 韩先花, 聂开宝. 模糊C-均值(FCM)聚类法与矢量量化法相结合用于说话人识别. 电子与信息学报, 2002, 24(6): 845-849.

    12. [12]

      姚志强, 周曦, 戴蓓蒨. 文本无关说话人识别中一种改进的模型PCA变换方法. 电子与信息学报, 2007, 29(2): 469-472.

    13. [13]

      张文林, 张连海, 陈琦, 李弼程. 语音识别中基于低秩约束的本征音子说话人自适应方法. 电子与信息学报, 2014, 36(4): 981-987.

    14. [14]

      张玲华, 郑宝玉, 杨震. 基于语音谐波结构的鲁棒特征参数及其在说话人识别中的应用. 电子与信息学报, 2006, 28(10): 1786-1789.

    15. [15]

      陈鸿昶, 徐乾, 黄瑞阳, 程晓涛, 吴铮. 一种基于用户轨迹的跨社交网络用户身份识别算法. 电子与信息学报, 2018, 40(11): 2758-2764.

    16. [16]

      张惊雷, 厚雅伟. 基于改进循环生成式对抗网络的图像风格迁移. 电子与信息学报, 2019, 41(0): 1-7.

    17. [17]

      屈丹, 张文林. 基于本征音子说话人子空间的说话人自适应算法. 电子与信息学报, 2015, 37(6): 1350-1356.

    18. [18]

      王玉静, 康守强, 张云, 刘学, 姜义成, MikulovichVI. 基于集合经验模态分解敏感固有模态函数选择算法的滚动轴承状态识别方法. 电子与信息学报, 2014, 36(3): 595-600.

    19. [19]

      跨域虚拟网络映射问题研究. 电子与信息学报, 2016, 38(3): 728-734.

    20. [20]

      罗会兰, 卢飞, 严源. 跨层融合与多模型投票的动作识别. 电子与信息学报, 2019, 41(3): 649-655.

  • 图 1  本文所提网络结构图

    图 2  不同margin值的ROC

    图 3  不同阈值的识别结果

    图 4  是否具有公共层的ROC曲线对比

    图 5  有无特征匹配判断网络识别结果对比

    表 1  不同特征的身份识别准确率(%)

    特征ID识别准确率
    语音公共特征95.57
    人脸公共特征99.41
    串联特征99.59
    下载: 导出CSV

    表 2  说话人身份识别准确率(%)

    方法ID识别准确率匹配准确率
    Multimodal Correlated NN[6]83.26
    Multimodal CNN[5]86.12
    Multimodal LSTM[7]90.1594.35
    Deep Heterogeneous Feature Fusion.[8]97.80
    本文AVGATN99.4199.02
    下载: 导出CSV
  • 加载中
图(5)表(2)
计量
  • PDF下载量:  21
  • 文章访问数:  1002
  • HTML全文浏览量:  445
文章相关
  • 通讯作者:  陈莹, chenying@jiangnan.edu.cn
  • 收稿日期:  2019-03-15
  • 录用日期:  2019-09-09
  • 网络出版日期:  2019-09-19
  • 刊出日期:  2020-02-01
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章