苟杰 作品数:3 被引量:18 H指数:3 供职机构: 解放军信息工程大学 更多>> 相关领域: 自动化与计算机技术 更多>>
基于MapReduce的并行SFLA-FCM聚类算法 被引量:6 2016年 模糊C均值算法(Fuzzy C-Means,FCM)是目前应用比较广泛的一种聚类算法。FCM算法的聚类质量依赖于初始聚类中心的选择并且易陷入局部极值,结合混合蛙跳算法(Shuffled Frog Leaping Algorithm,SFLA)较强的搜索能力,提出一种基于MapReduce的并行SFLA-FCM聚类算法。该算法利用SFLA算法的子群内模因信息传递和全局信息交换来搜索高质量的聚类中心,根据MapReduce编程模型设计算法流程,实现并行化,使其具有处理大规模数据集的能力。实验证明,并行SFLA-FCM算法提高了的搜索能力和聚类结果的精度,并且具有良好的加速比和扩展性。 苟杰 马自堂关键词:聚类 模糊C均值算法 混合蛙跳算法 MAPREDUCE 基于MapReduce的FCM聚类集成算法 被引量:5 2016年 模糊C-均值(FCM)聚类集成算法是一种利用集成思想提高聚类质量的方法。针对FCM聚类集成算法随着数据量的增加时间复杂度过高的问题,提出一种基于MapReduce框架的并行FCM聚类集成算法。首先利用多组随机的初始聚类中心分别进行聚类来获取具有差异化的聚类成员;然后通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,统一所有聚类成员中的簇标记;最后利用投票法共享聚类成员中数据对象的聚类情况得出最终的聚类结果。实验结果表明,该算法具有良好的精确度、加速比和扩展性,具有处理较大规模数据集的能力。 马自堂 苟杰关键词:MAPREDUCE 聚类集成 模糊C-均值 并行聚类算法 PODKNN:面向大数据集的并行离群点检测算法 被引量:7 2016年 针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN(Parallel Outlier Detection Based on K-nearest Neighborhood)。该算法利用划分策略对数据集进行预处理,在规模较小的子集中寻找K近邻并计算离群度,最后合并结果并遴选出离群点,设计算法过程使其符合MapReduce的编程模型,实现并行化,从而提高了离群点检测算法处理大规模数据的计算效率。实验结果表明,PODKNN具有较高的加速比及较好的扩展性。 苟杰 马自堂 张喆程关键词:数据挖掘 离群点检测 K近邻 MAPREDUCE