庞俊
- 作品数:3 被引量:30H指数:2
- 供职机构:东北大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种面向图集合的相似性搜索技术被引量:1
- 2017年
- 目前图相似性的研究工作主要集中在子图的匹配,而没有充分关注图集合之间的匹配.针对这一问题,提出了一种基于过滤-求精框架的GSSS算法;提出了一种图集合距离定义,设计了Number,Size,Complete edge和Lower bound过滤器减小搜索空间,优化了图集合距离的计算;设计并优化了一种增量式的多层倒排索引,提高了查询效率,适应数据集的动态变化.真实数据集上的大量实验验证了GSSS算法的有效性和高效性.
- 庞俊谷峪于戈
- 关键词:搜索索引
- 相似性连接查询技术研究进展被引量:15
- 2013年
- 相似性连接查询,即查找相似的数据对象对,具有广泛的应用领域,例如相似网页检测、实体解析、数据清洗和相似图像检索等。相似性连接查询是当前大数据处理领域的热点问题之一。讨论了相似性连接查询面临的挑战;根据不同的标准对现有的相似性连接查询进行了分类;总结并比较了现有的字符串、集合、向量和图相似性连接算法;探讨了今后的研究重点和发展趋势。
- 庞俊谷峪许嘉于戈
- 关键词:海量数据
- 基于MapReduce框架的海量数据相似性连接研究进展被引量:16
- 2015年
- 海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用。另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易用性,被广泛地应用于海量数据处理。因此,基于MapReduce框架的海量数据相似性连接查询技术成为海量数据处理领域的热点问题之一。首先,概括了海量数据固有特点和MapReduce编程框架的缺陷给现有相似性连接查询技术带来的巨大挑战;其次,提出了海量数据相似性连接的定义,按3种不同的分类标准对其进行了分类;接着,重点分析了集合、字符串和向量数据类型的海量相似性连接查询最新技术,并从效率和适用范围等方面分别对这些技术进行了比较;最后,讨论了海量数据相似性连接查询技术亟待解决的关键问题,并提出了一些有前景的解决方案。
- 庞俊于戈许嘉谷峪
- 关键词:海量数据MAPREDUCETOP-K