张锦杏
- 作品数:5 被引量:11H指数:2
- 供职机构:桂林电子科技大学计算机科学与工程学院更多>>
- 发文基金:广西教育厅科研项目广西可信软件重点实验室开放基金广西研究生教育创新计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种可探测新颖类别的数据流分类算法被引量:2
- 2013年
- 针对可探测新颖类别的数据流分类算法不能处理混合属性且新颖类别探测准确率不高,引入VFDTc算法作为基分类器学习算法,并改进新颖类别探测方法以处理混合属性数据和提高新颖类别的探测准确率。实验结果表明,改进后的算法具有较高的分类模型学习效率、数据流分类精度和处理速率。
- 邱良佩缪裕青陈宏张锦杏
- 关键词:数据流数据挖掘
- 一种基于Hadoop平台的新聚类算法被引量:6
- 2014年
- 针对现有很多聚类算法不能有效处理大规模数据的问题,基于微簇和等价连接关系,提出一种能在Hadoop平台实现高效并行化的聚类算法bigKClustering。算法将紧凑的数据抽象成一个向量,然后通过等价关系对这些向量进行连接,得到最终的聚类结果。实验结果表明,bigKClustering算法不仅具有良好的时间效率和聚类效果,而且具有良好的可伸缩性、加速比和时间稳定性。
- 缪裕青张锦杏刘少兵文益民明媚
- 关键词:HADOOP平台聚类
- 基于云计算平台的聚类算法研究进展被引量:3
- 2013年
- 基于云计算平台的数据挖掘主要目的是为了更好地处理海量数据,挖掘有用的信息。云计算为海量数据挖掘提供了强大的数据收集、存储和计算能力,简述了云计算技术及其研究现状,详细介绍了基于云计算平台的聚类算法,总结在云计算平台研究聚类所遇到的新问题,对基于云计算平台的聚类发展趋势进行展望。
- 张锦杏缪裕青邱良佩文益民
- 关键词:数据挖掘云计算聚类分析
- 基于云计算平台Hadoop的聚类研究
- 随着互联网的蓬勃发展,数据的规模不断扩大,从KB量级发展到TB甚至PB量级。如何从海量的数据中快速有效地挖掘出对用户有用的知识,是数据挖掘所面临的一个新的挑战。Hadoop是一个开源的云计算平台,可以实现海量数据的高效存...
- 张锦杏
- 关键词:海量数据云计算HADOOP平台聚类分析
- 文献传递
- 基于二级索引结构无候选项闭合序列模式挖掘算法
- 2012年
- 针对CloSpan算法分两个阶段挖掘闭合序列模式中第一阶段需要保持候选序列且未充分利用项的位置信息、存在对数据库重复扫描和计算大小的不足,提出了posCloSpan算法。算法通过对二级索引结构进行检索实现向前剪枝,避免数据库重复扫描以及对超序索引表、子序索引表的检测,实现非闭合序列的修剪,无须保存候选序列。实验结果证明,算法在处理较长序列以及存在大量重复投影数据库的数据源时,有效降低了时间上的开销。
- 缪裕青吴孔玲朱晓雁张锦杏
- 关键词:数据挖掘序列模式挖掘