中国人民大学信息学院数据仓库与商务智能实验室
- 作品数:1 被引量:4H指数:1
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 大数据下基于异步累积更新的高效P-Rank计算方法被引量:4
- 2014年
- P-Rank是SimRank的扩展形式,也是一种相似度度量方法,被用来计算网络中任意两个结点的相似性.不同于SimRank只考虑结点的入度信息,P-Rank还加入了结点的出度信息,从而更加客观准确地评价结点间的相似程度.随着大数据时代的到来,P-Rank需要处理的数据日益增大.使用MapReduce等分布式模型实现大规模P-Rank迭代计算的方法,本质上是一种同步迭代方法,不可避免地具有同步迭代方法的缺点:迭代时间(尤其是迭代过程中处理器等待的时间)长,计算速度慢,因此效率低下.为了解决这一问题,采用了一种迭代计算方法——异步累积更新算法.这个算法实现了异步计算,减少了计算过程处理器结点的等待时间,提高了计算速度,节省了时间开销.从异步的角度实现了P-Rank算法,将异步累积更新算法应用在了P-Rank上,并进行了对比实验.实验结果表明该算法有效地提高了计算收敛速度.
- 王旭丛李翠平陈红
- 关键词:大数据相似度