黑龙江省自然科学基金(F201011) 作品数:5 被引量:5 H指数:2 相关作者: 杨艳 钟颖莉 刘勇 冯丽敏 沈中辉 更多>> 相关机构: 黑龙江大学 更多>> 发文基金: 黑龙江省自然科学基金 黑龙江省教育厅科学技术研究项目 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 自然科学总论 更多>>
频繁子图挖掘算法gSpan的设计与实现 2011年 由于大部分图挖掘算法都需要利用频繁子图,频繁子图挖掘逐渐成为了数据挖掘领域中的热点研究内容。目前,很多高效的频繁子图挖掘算法已经被提出。其中,gSpan算法是目前公认的最好的频繁子图挖掘算法。然而,在化合物数据集上,还可以利用化合物的特殊结构进一步优化gSpan算法的性能。文献利用了化合物分子结构的对称性和原子类型分布的不均衡性,提出了一些新的优化策略,进一步改进了gSpan的性能。鉴于gSpan算法在图挖掘领域乃至整个数据挖掘领域的重要性,设计并实现gSpan算法。同时,采用文献[4]中的优化策略,进一步提高gSpan算法在化合物数据集上的运行效率。 郭玉林 刘勇关键词:频繁子图 KWSDS:关系数据库中Top-k关键词搜索系统 被引量:2 2012年 关系数据库中的关键词搜索技术已经成为信息检索领域的研究热点,它为没有任何SQL语法知识的用户提供了一个简单友好的接口.但是现存的关键词搜索系统主要依赖于数据图或模式图,而单独使用数据图或模式图的算法搜索效率不高,结果准确率也较低.设计实现了一个Top-k关键词搜索系统(keyword search system based on database graph and schema graph,KWSDS),用户提交关键词后,系统对关键词进行预处理,消除一些脏关键词.首次提出使用数据图与模式图相结合的方法,设计了同表查询算法和异表查询算法,分析了算法的正确性和时间复杂度,并且提出了相关性结果排序方法.KWSDS系统的搜索算法运行时间短,搜索结果准确性高,具有良好的查询性能.最后通过实验验证了KWSDS的效率. 唐明珠 杨艳 郭雪泉 沈中辉 钟颖莉关键词:关系数据库 信息检索 关键词搜索 模式图 基于相关查询的关键字搜索优化技术 被引量:3 2013年 关系数据库广泛应用于人们的日常生活与生产中.关系数据库的关键字搜索使人们能如同使用搜索引擎一样从数据库中搜索结构化信息,成为当前的研究热点.目前大量研究致力于从各方面提高查询效率,而往往忽略了大量的历史信息中潜在的价值.历史信息包括查询关键字、查询结果、查询热度等信息,这些信息对当前查询的处理具有重要的意义,但目前这方面的研究成果很少见.对此问题进行了深入研究,提出了相关查询的概念并利用相关查询来提高当前查询的效率,提出了获取相关查询的keyword_match算法和利用相关查询的查询结果重构当前查询结果的reconstruct算法.理论分析和实验结果均表明,算法在保证了查询结果准确率的同时提高了查询效率. 冯丽敏 杨艳 钟颖莉关键词:相关查询 搜索 数据库 MRSM:挖掘具有代表性的极大频繁子图 2013年 基于随机化思想,提出了一种新的挖掘具有代表性的极大频繁子图的算法——MRSM算法。该算法在第一步挖掘极大频繁子图过程中,采用基于随机化的方法,利用已挖掘到的结果,提高算法的效率;在第二步聚类过程中,综合考虑了频繁模式在支持度和结构上的相似性,使得聚类的质量更好。在真实和模拟数据集上的实验结果证实了MRSM算法的有效性。 杨艳 屈松 屈松关键词:数据挖掘 基于短语的关系数据库关键词查询方法 关系数据库关键词查询已经成为当前的研究热点.对于用户输入的关键词序列,现有系统以单个查询词为查询基本单位,没有考虑查询词之间的语义关系,而查询词之间的语义关系对于查询处理具有重要的意义.用户输入的关键词序列经常包含很多短... 杨艳 何天宇关键词:关系数据库 关键词查询 短语识别 文献传递 CNGM:一种新颖的候选网生成算法 2012年 提出一种新颖的候选网络生成算法,并提出完全元组集图的概念,该算法通过预处理完全元组集图,建立候选网络索引;利用关键词的非自由元组集名字来查找候选网络索引得到候选网络.本算法使得候选网络的生成利用索引来完成,理论分析和实验结果表明:该算法大大减少了候选网络的生成时间,提高了关键词搜索的效率. 杨艳 何天宇关键词:关系数据库 关键词查询 模式图