张敏超
- 作品数:3 被引量:1H指数:1
- 供职机构:西北大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金陕西省教育厅科研计划项目更多>>
- 相关领域:自动化与计算机技术化学工程更多>>
- 一种改进的频繁子图挖掘算法
- 2014年
- 在大量的图数据集合中实现目标图的精确匹配是一项相当耗时的任务,为了提高检索效率,频繁子图挖掘逐渐受到广泛的研究。使用频繁子图挖掘可以去除那些与目标图极不相似的图,这样就减小了图的数据集合,从而使目标图检索变得更为快速。FFSM算法虽是一种较为有效的频繁子图挖掘算法,但在应用中存在占用大量存储空间的缺点。本文基于FFSM算法在数据预处理的基础上,将Recomputed Embedding技术整合于FFSM算法,利用改进后的算法建立索引分类。最后将新算法应用于化学虚拟合成系统的数据处理上,实验结果证明相对于FFSM算法其获得目标化合物的速度得到了显著提高。
- 李亮陈莉李华王珊珊张敏超
- 关键词:频繁子图挖掘预处理
- 基于半监督多标签学习的文献自动链接方法研究与实现
- 随着跨学科合作研究的深入,许多文献都是跨领域的,并且文献数据库中的文献数量每年以数百万的速度在增长。现如今已能自动抽取某一领域的深层次分面分类树,如何将这百万级的文献自动链接到分面分类树上,促使文献能被方便快速的检索,己...
- 张敏超
- 关键词:半监督学习HADOOP
- 文献传递
- Hadoop框架下的多标签传播算法被引量:1
- 2015年
- 标签传播算法的主要思想是利用已标注数据的标签信息预测未标注数据的标签信息。然而,传统传播算法没有区别对待未标注数据与已标注数据相互之间的转移信息,导致算法的收敛速度较慢,影响了算法的性能。针对传统算法的不足,提出了差异权重标签传播算法,算法按标注信息的重要性赋予不同的权重。在解决了大规模特征矩阵相乘问题之后,将提出的差异权重标签传播算法应用到Hadoop框架下,采用分布式计算,实现了能够处理大规模数据的多标签分类算法(HSML),并将提出的HSML算法与现有主流多标签分类算法进行了性能比较。实验结果表明,HSML算法在多标签分类的各项性能评测指标和执行速度上都是有效的。
- 孙霞张敏超冯筠张蕾何绯娟
- 关键词:HADOOP