胡飞翔
- 作品数:2 被引量:11H指数:1
- 供职机构:东北大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于MapReduce的并行聚类算法设计与实现被引量:10
- 2014年
- 针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。
- 刘向东刘奎胡飞翔王翠荣
- 关键词:大数据聚类算法并行处理MAPREDUCE
- 基于云计算的聚类算法的MapReduce化研究
- 聚类算法的研究有着很长的历史,几十年来,其重要性及与其他研究方向的交叉性得到人们的肯定。聚类算法作为一种非监督学习的方法,是包括模式识别、数据挖掘、图像分析、机器学习等诸多领域数据统计分析的一种常用技术。随着互联网上数据...
- 胡飞翔
- 关键词:云计算聚类算法ISODATA
- 文献传递