高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种基于MapReduce的知识聚类与统计机制

徐小龙 李永萍

徐小龙, 李永萍. 一种基于MapReduce的知识聚类与统计机制[J]. 电子与信息学报, 2016, 38(1): 202-208. doi: 10.11999/JEIT150247
引用本文: 徐小龙, 李永萍. 一种基于MapReduce的知识聚类与统计机制[J]. 电子与信息学报, 2016, 38(1): 202-208. doi: 10.11999/JEIT150247
XU Xiaolong, LI Yongping. Knowledge Clustering and Statistics Based on MapReduce[J]. Journal of Electronics and Information Technology, 2016, 38(1): 202-208. doi: 10.11999/JEIT150247
Citation: XU Xiaolong, LI Yongping. Knowledge Clustering and Statistics Based on MapReduce[J]. Journal of Electronics and Information Technology, 2016, 38(1): 202-208. doi: 10.11999/JEIT150247

一种基于MapReduce的知识聚类与统计机制

doi: 10.11999/JEIT150247
基金项目: 

国家自然科学基金(61202004, 61472192),教育部科技发展中心网络时代的科技论文快速共享专项研究(2013116),江苏省高校自然科学研究计划(14KJB520014)

Knowledge Clustering and Statistics Based on MapReduce

Funds: 

The National Natural Science Foundation of China (61202004, 61472192), The Special Fund for Fast Sharing of Science Paper in Net Era by CSTD (2013116), The Natural Science Fund of Higher Education of Jiangsu Province (14KJB520014)

  • 摘要: 网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于MapReduce的知识聚类与统计机制:首先,提出基于MapReduce的共现矩阵构建算法MR-CoMatrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过Z Scores对相似度矩阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;基于聚类结果,提出基于MapReduce的知识文献统计算法MR-Statistics,对每个分类的知识属性进行统计。实验结果表明:将MR-CoMatrix和MR-Statistics方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。
  • [1] SERET A, VERBRAKEN T, and BAESENS B. A new knowledge-based constrained clustering approach: theory and application in direct marking[J]. Applied Soft Computing, 2014, 24(3): 316-327.
    [2] 朱林, 雷景生, 毕忠勤, 等. 一种基于数据流的软子空间聚类算法[J]. 软件学报, 2013, 24(11): 2610-2627.
    [3] ZHU Lin, LEI Jingsheng, BI Zhongqin, et al. Soft subspace clustering algorithm for streaming data[J]. Journal of Software, 2013, 24(11): 2610-2627.
    [4] ZHU Lin, CHUNG Fulai, and WANG Shitong. Generalized fuzzy C-means clustering algorithm with improved fuzzy partitions[J]. IEEE Transactions on Systems, Man, and Cybernetics, 2009, 39(3): 578-591.
    [5] 张敏, 于剑. 基于划分的模糊聚类算法[J]. 软件学报, 2004, 15(6): 858-866.
    [6] ZHANG Min and YU Jian. Fuzzy partitional clustering algorithms[J]. Journal of Software, 2004, 15(6): 858-866.
    [7] 徐森, 周天, 于化龙, 等. 一种基于矩阵低秩近似的聚类集成算法[J]. 电子学报, 2013, 41(6): 1219-1223.
    [8] XU Sen, ZHOU Tian, YU Hualong, et al. Matrix low rank approximation-based cluster ensemble algorithm[J]. Acta Electronica Sinica, 2013, 41(6): 1219-1223.
    [9] 徐森, 卢志茂, 顾国昌. 使用谱聚类算法解决文本聚类集成问题[J]. 通信学报, 2010, 31(6): 58-66.
    [10] XU Sen, LU Zhimao, and GU Guochang. Spectral clustering algorithm for document cluster ensemble problem[J]. Journal on Communications, 2010, 31(6): 58-66.
    [11] ZHU Wenxing, CHEN Jianli, and LI Weiguo. An augmented Lagrangian method for VLSI global placement[J]. The Journal of Supercomputing, 2014, 69(2): 714-738.
    [12] ZHOU F, TORRE F D L, and HODGINS J K. Hierarchical aligned cluster analysis for temporal clustering of human motion[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 582-596.
    [13] MASHSHI S, NIU G, MAKOTO Y, et al. Information- maximization clustering based on squared-loss mutual information[J]. Neural Computation, 2014. 26(1): 84-131.
    [14] YU Feili, CAO Liangliang, FERIS R S, et al. Designing Category-level attributes for discriminative visual recognition [C]. Preceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Portland, 2013: 771-776.
    [15] 李建元, 周脚根, 关佶红. 谱图聚类算法研究进展[J]. 智能系统学报, 2011, 6(5): 405-414.
    [16] LI Jianyuan, ZHOU Jiaogen, and GUAN Jihong. A survey of clustering algorithms based on spectra of graphs[J]. CAAI Transactions on Intelligent Systems, 2011, 6(5): 405-414.
    [17] LU Zhimao and ZHANG Qi. Clustering by data competition [J]. Science China (Information Sciences), 2013, 56(1): 1-13.
    [18] CHENG Bo, WANG Minhong, A I, et al. Research on e-learning in the workplace 2000-2012: A bibliometric analysis of the literature[J]. Educational Research Review, 2013, 11: 56-72.
    [19] 孔万增, 孙志海, 杨灿. 基于基本间隙与正交特征向量的自动谱聚类[J]. 电子学报, 2010, 38(8): 1880-1891.
    [20] KONG Wanzeng, SUN Zhihai, and YANG Can. Automatic spectral clustering based on eigengap and orthogonal eigenvector[J]. Acta Electronica Sinica, 2010, 38(8): 1880-1891.
    [21] CARPENTIER S, SOLE A D, and KAC V G. Rational matrix pseudodifferential operators[J]. Selecta Mathematica, 2014, 20(2): 403-419.
    [22] JUGL E, KUHWALD T, and IVERSEN K. Algorithm for construction of (0,1)-matrix codes[J]. Electronics Letters, 1997, 33(3): 226-229.
    [23] 李建江, 崔健, 王聃, 等. MapReduce并行编程模型研究综述[J]. 电子学报, 2011, 39(11): 2635-2642.
    [24] LI Jianjiang, CUI Jian, WANG Dan, et al. Survey of MapReduce parallel programming model [J]. Acta Electronica Sinica, 2011, 39(11): 2635-2642.
    [25] FERRERA P, PRADO I D, PALACIOS E, et al. Tuple MapReduce and pangool: an associated implementation[J]. Knowledge and Information Systems, 2014, 41(2): 531-557.
    [26] 陈吉荣, 乐嘉锦. SingleMapReduce:单一输出HDFS文件的MapReduce编程模型[J]. 华南理工大学学报, 2014, 42(5): 135-142.
    [27] CHEN Jirong and LE Jiajin. SingleMapReduce: a MapReduce programming model based on single output file of HDFS[J]. Journal of South China University of Technology, 2014, 42(5): 135-142.
    [28] 王肇国, 易涵, 张为华. 基于机器学习特性的数据中心能耗优化算法[J]. 软件学报, 2014, 25(7): 1432-1447.
    [29] WANG Zhaoguo, YI Han, and ZHANG Weihua. Power saving based on characteristics of machine learning in data center[J]. Journal of Software, 2014, 25(7): 1432-1447.
    [30] 易小华, 刘杰, 叶丹. 面向MapReduce数据处理流程开发方法[J]. 计算机科学与探索, 2011, 5(2): 161-168.
    [31] YI Xiaohua, LIU Jie, and YE Dan. Development method of MapReduce oriented data flow processing[J]. Journal of Frontiers of Computer Science and Technology, 2011, 5(2): 161-168.
    [32] ROWBERRY J. Z Scores[M]. New York: Springer Science + Business Media, 2013: 3419-3420.
    [33] VARIN T and BUREAU R. Clustering files of chemical structures using the Szekely-Rizzo generalization of Wards method[J]. Journal of Molecular Graphics and Modelling, 2009, 28(2): 187-195.
    [34] LEE A. Minkowski generalizations of Wards method in hierarchical clustering[J]. Journal of Classification, 2014, 31(2): 194-218.
    [35] MURTAGH F and LEGENDRE P. Wards hierarchical agglomerative clustering method: which algorithms implement Wards criterion?[J]. Journal of Classification, 2014, 31(3): 274-295.
  • [1] 高云龙, 王志豪, 潘金艳, 罗斯哲, 王德鑫.  基于自适应松弛的鲁棒模糊C均值聚类算法, 电子与信息学报. doi: 10.11999/JEIT190556
    [2] 李晨溪, 曹雷, 陈希亮, 张永亮, 徐志雄, 彭辉, 段理文.  基于云推理模型的深度强化学习探索策略研究, 电子与信息学报. doi: 10.11999/JEIT170347
    [3] 王菊, 刘付显.  一种面向多属性不确定数据流的模体发现算法, 电子与信息学报. doi: 10.11999/JEIT160247
    [4] 黄利, 尤红建.  基于聚类的非共线多CCD遥感图像误匹配点去除方法, 电子与信息学报. doi: 10.11999/JEIT170043
    [5] 高放, 孙长建, 邵庆龙, 郭树旭.  基于K-均值聚类和传统递归最小二乘法的高光谱图像无损压缩, 电子与信息学报. doi: 10.11999/JEIT151439
    [6] 赵学健, 孙知信, 袁源.  基于预判筛选的高效关联规则挖掘算法, 电子与信息学报. doi: 10.11999/JEIT151107
    [7] 李雪, 赵春霞, 舒振球, 郭剑辉.  基于超图正则化受限的概念分解算法, 电子与信息学报. doi: 10.11999/JEIT140799
    [8] 张亚红, 李玉鑑, 张婷.  检测多元相关关系的最大信息熵方法, 电子与信息学报. doi: 10.11999/JEIT140053
    [9] 职为梅, 张婷, 范明.  基于影响函数的k-近邻分类, 电子与信息学报. doi: 10.11999/JEIT141433
    [10] 陈丽敏, 杨静, 张健沛.  一种基于嵌入技术的异构信息网络的快速聚类算法, 电子与信息学报. doi: 10.11999/JEIT150106
    [11] 李秋富, 谌德荣, 何光林, 冯辉, 杨柳心.  最大误差可控的高光谱图像聚类压缩算法, 电子与信息学报. doi: 10.11999/JEIT140451
    [12] 孙力娟, 陈小东, 韩崇, 郭剑.  一种新的数据流模糊聚类方法, 电子与信息学报. doi: 10.11999/JEIT141415
    [13] 陈季梦, 陈佳俊, 刘杰, 黄亚楼, 王嫄, 冯霞.  基于结构相似度的大规模社交网络聚类算法, 电子与信息学报. doi: 10.11999/JEIT140512
    [14] 江逸茗, 兰巨龙, 郭通, 田铭.  一种面向可重构网络的业务聚类方法, 电子与信息学报. doi: 10.3724/SP.J.1146.2012.00973
    [15] 蒋鸿玲, 邵秀丽, 李耀芳.  基于MapReduce的僵尸网络在线检测算法, 电子与信息学报. doi: 10.3724/SP.J.1146.2012.01444
    [16] 李珍, 田俊峰, 赵鹏远.  基于分级属性的软件监控点可信行为模型, 电子与信息学报. doi: 10.3724/SP.J.1146.2011.01060
    [17] 苏欣, 张大方, 罗章琪, 曾彬, 黎文伟.  基于Command and Control通信信道流量属性聚类的僵尸网络检测方法, 电子与信息学报. doi: 10.3724/SP.J.1146.2011.01098
    [18] 王力, 吴成东, 陈东岳.  基于密度权期望最大与分裂合并策略的线状模式挖掘, 电子与信息学报. doi: 10.3724/SP.J.1146.2011.01014
    [19] 张清华, 幸禹可, 周玉兰.  基于粒计算的增量式知识获取方法, 电子与信息学报. doi: 10.3724/SP.J.1146.2010.00217
    [20] 唐续, 魏平, 陈欣.  PHD粒子滤波中目标状态提取方法研究, 电子与信息学报. doi: 10.3724/SP.J.1146.2009.01580
  • 加载中
  • 计量
    • 文章访问数:  677
    • HTML全文浏览量:  51
    • PDF下载量:  576
    • 被引次数: 0
    出版历程
    • 收稿日期:  2015-02-12
    • 修回日期:  2015-10-08
    • 刊出日期:  2016-01-19

    目录

      /

      返回文章
      返回

      官方微信,欢迎关注