高级搜索

基于整数线性规划重构抽象语义图结构的语义摘要算法

陈鸿昶 明拓思宇 刘树新 高超

引用本文: 陈鸿昶, 明拓思宇, 刘树新, 高超. 基于整数线性规划重构抽象语义图结构的语义摘要算法[J]. 电子与信息学报, 2019, 41(7): 1674-1681. doi: 10.11999/JEIT180720 shu
Citation:  Hongchang CHEN, Tuosiyu MING, Shuxin LIU, Chao GAO. Semantic Summarization of Reconstructed Abstract Meaning Representation Graph Structure Based on Integer Linear Pragramming[J]. Journal of Electronics and Information Technology, 2019, 41(7): 1674-1681. doi: 10.11999/JEIT180720 shu

基于整数线性规划重构抽象语义图结构的语义摘要算法

    作者简介: 陈鸿昶: 男,1964年生,教授,博士生导师,研究方向为通信与信息工程、网络大数据;
    明拓思宇: 男,1994年生,硕士生,研究方向为网络大数据、文本摘要;
    刘树新: 男,1987年生,助理研究员,研究方向为网络大数据、复杂网络;
    高超: 男,1982年生,助理研究员,研究方向为网络大数据、计算机视觉
    通讯作者: 明拓思宇,1139446336@qq.com
  • 基金项目: 国家自然科学基金(61521003),国家自然科学基金青年科学基金(61601513)

摘要: 针对利用抽象语义(AMR)图来预测摘要子图存在的语义结构不完整问题,该文提出一种基于整数线性规划(ILP)重构AMR图结构的语义摘要算法。首先将数据预处理生成一个AMR总图;然后基于统计特征从AMR总图中抽取出摘要子图重要节点信息;最后利用ILP的方法来对摘要子图中节点关系进行重构,利用完整的摘要子图恢复生成语义摘要。实验结果表明,相比其他语义摘要方法,所提方法的ROUGE值和Smatch值都有显著提高,最多分别提高了9%和14%,该方法有利于提高语义摘要的质量。

English

    1. [1]

      LYNN H M, CHOI C, and KIM P. An improved method of automatic text summarization for web contents using lexical chain with semantic-related terms[J]. Soft Computing, 2018, 22(12): 4013–4023. doi: 10.1007/s00500-017-2612-9

    2. [2]

      SHETTY K and KALLIMANI J S. Automatic extractive text summarization using K-means clustering[C]. International Conference on Electrical, Electronics, Communication, Computer, and Optimization Techniques (ICEECCOT), Mysuru, India, 2017: 1–9.

    3. [3]

      YU Shanshan, SU Jindian, LI Pengfei, et al. Towards high performance text mining: A TextRank-based method for automatic text summarization[J]. International Journal of Grid and High Performance Computing (IJGHPC) , 2016, 8(2): 58–75. doi: 10.4018/IJGHPC.2016040104

    4. [4]

      NGUYEN-HOANG T A, NGUYEN K, and TRAN Q V. TSGVi: A graph-based summarization system for Vietnamese documents[J]. Journal of Ambient Intelligence and Humanized Computing, 2012, 3(4): 305–313. doi: 10.1007/s12652-012-0143-x

    5. [5]

      KHAN A, SALIM N, FARMAN H, et al. Abstractive text summarization based on improved semantic graph approach[J]. International Journal of Parallel Programming, 2018: 1–25. doi: 10.1007/s10766-018-0560-3

    6. [6]

      BANARESU L, BONIAL C, CAI S, et al. Abstract meaning representation for sembanking[C]. Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse, Sofia, Bulgaria, 2013: 178–186.

    7. [7]

      LIU Fei, FLANIGAN J, THOMSON S, et al. Toward abstractive summarization using semantic representations[C]. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Denver, USA, 2015: 1077–1086.

    8. [8]

      SONG Linfeng, PENG Xiaochang, ZHANG Yue, et al. AMR-to-text generation with synchronous node replacement grammar[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017: 7–13.

    9. [9]

      KONSTAS I, IYER S, YATSKAR M, et al. Neural AMR: Sequence-to-sequence models for parsing and generation[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017: 146–157.

    10. [10]

      明拓思宇, 陈鸿昶, 黄瑞阳, 等. 一种基于加权AMR图的语义子图预测摘要算法[J]. 计算机工程, 2018, 44(10): 292–297. doi: 10.19678/j.issn.1000-3428.0050770
      MING Tuosiyu, CHEN Hongchang, HUANG Ruiyang, et al. A semantic subgraph predictive summary algorithm based on improved AMR graph[J]. Computer Engineering, 2018, 44(10): 292–297. doi: 10.19678/j.issn.1000-3428.0050770

    11. [11]

      COLLINS M. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms[C]. Proceedings of the ACL-02 conference on Empirical Methods in Natural Language Processing, Philadelphia, USA, 2002, 10: 1–8.

    12. [12]

      HERMANN K M, KOČISKÝ T, GREFENSTETTE E, et al. Teaching machines to read and comprehend[C]. Proceeding NIPS’15 Proceedings of the 28th International Conference on Neural Information Processing Systems, Montreal, Canada, 2015, 1: 1693–1701.

    13. [13]

      LIN Chinyew. ROUGE: A package for automatic evaluation of summaries[C]. Text Summarization Branches Out: Proceedings of the ACL-04 Workshop, Barcelona, Spain, 2004, 10: 74–81.

    14. [14]

      CAI Shu and KNIGHT K. Smatch: An evaluation metric for semantic feature structures[C]. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, 2013, 2: 748–752.

    15. [15]

      SEE A, LIU P J, and MANNING C D. Get to the point: Summarization with pointer-generator networks[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017, 1: 1073–1083.

    16. [16]

      TAN Jiwei, WAN Xiaojun, and XIAO Jianguo. Abstractive document summarization with a graph-based attentional neural model[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017, 1: 1171–1181.

    1. [1]

      陈彬, 鲍东晖, 苏恭超, 代明军, 王晖, 林晓辉. 基于路径的整数线性规划方法在阻塞IP over WDM网络中能耗优化的应用. 电子与信息学报, 2015, 37(3): 715-720.

    2. [2]

      汤红波, 邱航, 游伟, 季新生. 基于联合备份的服务功能链可靠性保障的部署方法. 电子与信息学报, 2019, 41(12): 3006-3013.

    3. [3]

      刘光远, 苏森. 面向底层单节点失效的轻量级可靠虚拟网络映射算法. 电子与信息学报, 2013, 35(11): 2644-2649.

    4. [4]

      赵斐, 张文凯, 闫志远, 于泓峰, 刁文辉. 基于多特征图金字塔融合深度网络的遥感图像语义分割. 电子与信息学报, 2019, 41(10): 2525-2531.

    5. [5]

      孙显, 付琨, 王宏琦. 基于分等级对象语义图模型的复杂目标自动识别方法研究. 电子与信息学报, 2011, 33(5): 1062-1068.

    6. [6]

      于婧, 张建辉, 顾小卓, 汪斌强. 基于主题和物理位置相近原则的层次化对等语义覆盖网络结构. 电子与信息学报, 2008, 30(8): 1999-2003.

    7. [7]

      侯祥松, 曹元大, 关志涛, 张昱. 基于结构化P2P的语义查询技术. 电子与信息学报, 2009, 31(3): 707-710.

    8. [8]

      肖文华, 包卫东, 陈立栋, 王炜, 张茂军. 一种用于图像分类的语义增强线性编码方法. 电子与信息学报, 2015, 37(4): 791-797.

    9. [9]

      高永英, 章毓晋, 罗云. 基于目标语义特征的图像检索系统. 电子与信息学报, 2003, 25(10): 1341-1348.

    10. [10]

      罗会兰, 卢飞, 孔繁胜. 基于区域与深度残差网络的图像语义分割. 电子与信息学报, 2019, 41(11): 2777-2786.

    11. [11]

      韩铮, 肖志涛. 基于纹元森林和显著性先验的弱监督图像语义分割方法. 电子与信息学报, 2018, 40(3): 610-617.

    12. [12]

      杨宏宇, 王峰岩. 基于深度卷积神经网络的气象雷达噪声图像语义分割方法. 电子与信息学报, 2019, 41(10): 2373-2381.

    13. [13]

      陈蕾, 杨庚, 张迎周, 陈燕俐. 基于核Batch SOM聚类优化的语义Web服务发现机制研究. 电子与信息学报, 2011, 33(6): 1307-1313.

    14. [14]

      王晓东, 郭雷, 方俊, 董淑福. 一种基于EMD的文档语义相似性度量. 电子与信息学报, 2008, 30(9): 2156-2161.

    15. [15]

      冯卫东, 孙显, 王宏琦. 基于空间语义模型的高分辨率遥感图像目标检测方法. 电子与信息学报, 2013, 35(10): 2518-2523.

    16. [16]

      张莹, 黄厚宽, 杨冬, 张宏科. 基于Chord的带有QoS的语义Web服务发现方法研究. 电子与信息学报, 2009, 31(3): 711-715.

    17. [17]

      黄勇, 刘芳. 基于模糊语义的高分辨率SAR图像汽车检测算法. 电子与信息学报, 2017, 39(4): 968-972.

    18. [18]

      王文博, 李晓峰, 李勇. 基于语义Web服务的智能电信业务模型. 电子与信息学报, 2009, 31(3): 694-697.

    19. [19]

      孙显, 付琨, 王宏琦. 基于空间语义对象混合学习的复杂图像场景自动分类方法研究. 电子与信息学报, 2011, 33(2): 347-354.

    20. [20]

      张波, 向阳, 王坚. 一种基于语义可理解的信息过滤算法. 电子与信息学报, 2010, 32(10): 2324-2330.

  • 图 1  算法框架图

    图 2  英文句“I saw Joe’s dog, which was running in the garden”的AMR图表示

    图 3  AMR图合并生成AMR总图示意图

    图 4  实验结果AMR图与标准摘要AMR图的对比

    图 5  L值对摘要质量各指标的影响

    表 1  摘要子图节点和边预测正确率(%)

    PRF1
    节点71.482.576.5
    45.660.151.9
    下载: 导出CSV

    表 2  不同语义摘要算法的性能对比

    算法ROUGE-1ROUGE-2ROUGE-WSmatch
    外部语义资源20.45.614.317.8
    语义聚类21.26.015.219.1
    潜在语义分析22.86.814.920.5
    TextRank算法25.78.116.824.6
    PAS语义图26.59.618.628.9
    本文方法29.310.419.632.1
    下载: 导出CSV

    表 3  使用ILP和未使用ILP摘要质量对比

    ROUGE-1ROUGE-2ROUGE-WSmatch
    未使用ILP29.19.818.729.7
    使用ILP29.310.419.632.1
    结果提升0.20.60.92.4
    下载: 导出CSV

    表 4  与深度学习算法的性能对比

    方法ROUGE-1ROUGE-2ROUGE-WSmatch
    本文方法29.310.419.632.1
    深度学习33.413.624.826.7
    下载: 导出CSV
  • 加载中
图(5)表(4)
计量
  • PDF下载量:  56
  • 文章访问数:  884
  • HTML全文浏览量:  447
文章相关
  • 通讯作者:  明拓思宇, 1139446336@qq.com
  • 收稿日期:  2018-07-18
  • 录用日期:  2018-10-26
  • 网络出版日期:  2018-11-19
  • 刊出日期:  2019-07-01
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章