您的位置: 专家智库 > >

国家自然科学基金(61272263)

作品数:4 被引量:64H指数:3
相关作者:张继福荀亚玲李永红赵旭俊更多>>
相关机构:太原科技大学更多>>
发文基金:国家自然科学基金山西省青年科技研究基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 2篇负载均衡
  • 2篇MAPRED...
  • 1篇数据放置
  • 1篇数据集
  • 1篇数据挖掘
  • 1篇能耗
  • 1篇维数
  • 1篇稀疏度
  • 1篇离群数据
  • 1篇离群数据挖掘
  • 1篇集群环境
  • 1篇概率密度
  • 1篇高维
  • 1篇高维数据
  • 1篇高维数据集
  • 1篇编程
  • 1篇编程模型
  • 1篇REDUCE
  • 1篇TREE
  • 1篇CFP

机构

  • 4篇太原科技大学

作者

  • 4篇荀亚玲
  • 4篇张继福
  • 2篇李永红
  • 1篇赵旭俊

传媒

  • 2篇小型微型计算...
  • 2篇软件学报

年份

  • 4篇2015
4 条 记 录,以下是 1-4
排序方式:
MapReduce编程模型下的约束频繁模式挖掘算法被引量:2
2015年
约束频繁模式是利用用户给定的约束条件,生成的一种频繁模式,具有针对性强、挖掘效率高等特点.随着数据量的增大,约束频繁模式生成过程存在着占用内存大和I/O代价高等问题,难以适用于海量高维数据集.采用MapReduce编程模型,给出一种约束频繁模式并行挖掘MCFP算法.该算法首先,采用三对Map和Reduce函数实现了将数据中事务映射为频繁项计数、构建约束频繁模式树和生成约束频繁模式,以及频繁模式聚合等主要步骤;其次,根据频繁项支持度,迁移数据记录,有效地实现了频繁模式生成过程中的负载均衡;最后,采用天体光谱数据,实验验证了该算法的有效性、可伸缩性和可扩展性.
闫晓妩张继福荀亚玲赵旭俊
关键词:负载均衡
相关子空间中的局部离群数据挖掘算法研究被引量:17
2015年
针对高维数据集,采用局部稀疏差异和局部密度差异的度量因子,给出一种相关子空间中的局部离群数据挖掘算法.该算法根据K最近邻(K-NN),确定数据集中各数据对象的局部数据集,并依据属性值的稀疏因子生成全局的稀疏因子矩阵和局部稀疏因子矩阵,从而有效地反映了数据对象的局部稀疏程度;根据局部稀疏因子矩阵,计算属性维对应的局部稀疏差异因子,并确定数据对象对应的子空间定义向量,从而体现了具有任意性相关的相关子空间;如果数据对象存在相关子空间,则采用高斯误差函数体现相关子空间中各数据对象的局部密度差异,有效地降低了"维灾"的影响,使得离群数据的度量与相关子空间的维度无关,并能够度量相关子空间的数据对象,否则设置数据对象的局部密度差异为0,表明其为正常数据;选取局部密度差异(离群程度)最大的若干数据对象作为局部离群数据;最后采用UCI和恒星光谱数据集,实验验证了该算法的有效性.
李永红张继福荀亚玲
关键词:高维数据集
基于MapReduce与相关子空间的局部离群数据挖掘算法被引量:39
2015年
针对高维海量数据,在Map Reduce编程模型下,提出了一种基于相关子空间的局部离群数据挖掘算法.该算法首先利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了相关子空间中的局部离群因子计算公式,有效地体现了相关子空间中数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据;在此基础上,采用LSH分布式策略,提出了一种Map Reduce编程模型下的局部离群数据挖掘算法;最后,采用人工数据集和恒星光谱数据集,实验验证了该算法的有效性、可扩展性和可伸缩性.
张继福李永红秦啸荀亚玲
关键词:MAPREDUCE概率密度
MapReduce集群环境下的数据放置策略被引量:16
2015年
MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作.
荀亚玲张继福秦啸
关键词:数据放置MAPREDUCE编程模型能耗负载均衡
共1页<1>
聚类工具0