贵州省科技计划项目(GY[2008]3035)
- 作品数:13 被引量:63H指数:5
- 相关作者:陈梅王翰虎王嫣然张鑫敖飞更多>>
- 相关机构:贵州大学贵州省科技情报研究所更多>>
- 发文基金:贵州省科技计划项目贵阳市科技攻关项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于矩阵算法的序列模式挖掘研究被引量:1
- 2011年
- 序列模式挖掘中几种算法的缺点:都要进行多次扫描数据库,CPU要进行多次I/O操作。这成为序列挖掘中的一大瓶颈,使得算法在实际应用中的效率不高。文中提出一种矩阵算法,即在一次扫描数据库时,根据扫描数据建立由0和1组成的事务矩阵。接下来的大序列、序列模式等都是通过矩阵的列向量对应元素的相乘运算和简单的加法运算而得到。从而使算法得到进一步优化,提高了CPU的使用率,解决了序列挖掘中的瓶颈问题。本算法通过大量的数据实验,证明了算法确实有效地优化了算法的时间复杂度。
- 卢博礼张小平王翰虎
- 关键词:序列模式挖掘矩阵算法
- 集成桌面搜索引擎的内容检测系统设计
- 2013年
- 针对企业需要对内部PC的磁盘信息进行实时监控的需求,提出了将桌面搜索引擎作为重要功能单元集成在检测系统中的设计模型。通过研究传统桌面搜索引擎的框架模型,设计出适应实际需求的特殊桌面搜索引擎。在文档转换和内容抓取的基础上为被搜索关键字建立索引,以此取代全文索引的策略,有效避免了建立全文索引用时较长的弊端,提高了建立索引的针对性。讨论了为提高系统性能而选择的匹配算法。实验结果表明,设计的内容检测系统通过集成桌面搜索引擎,能够高效地管理和检测桌面内容。
- 贾默陈梅
- 关键词:桌面搜索文档转换字符串匹配
- AprioriTid算法的改进被引量:3
- 2009年
- 针对关联规则挖掘的AprioriTid算法缺点提出了一种改进的算法,即在构造k阶Tid表时,考虑当前交易项包含的所有k阶候选项的全部元素组成的集合,它肯定是当前交易项的子集。如果它的范数大于k就将其写入k阶Tid表中,而不是它所包含的所有k阶候选项集都写入表中,这样必然减少下一次寻找k+1阶大项集时所需要扫描的交易量,从而使AprioriTid算法得到进一步优化。通过在Northwind数据集上的实验,验证了该算法有效地优化了空间复杂度和时间复杂度。
- 向程冠姜季春陈梅王翰虎
- 关键词:关联规则挖掘大项集范数
- 基于互信息可信度的贝叶斯网络入侵检测研究被引量:6
- 2009年
- 传统贝叶斯入侵检测算法没有考虑不同属性和属性权值对入侵检测结果的影响,因此分类准确率不够高。针对传统贝叶斯入侵检测算法存在的不足,提出基于互信息可信度的贝叶斯网络入侵检测算法。在综合考虑网络入侵检测数据特点和传统贝叶斯分类算法优点的基础上,用互信息相对可信度进行特征选择,删除一些冗余属性,把互信息相对可信度作为权值引进贝叶斯分类算法中,得到优化的贝叶斯网络入侵检测算法(MI-NB)。实验结果表明,MI-NB算法能大大降低分类数据的维数,比传统贝叶斯入侵检测算法及改进算法有更高的分类准确率。
- 令狐红英陈梅王翰虎娄燚
- 关键词:互信息贝叶斯分类入侵检测
- 一种基于滑动窗口的流数据聚类算法被引量:1
- 2011年
- 在实际应用中,人们往往比较关心最近一段时间内数据流的分布状况。在传统的基于界标模型的聚类算法CluStream中,没有淘汰过期元组,不能准确反映当前数据流的数据分布状况。滑动窗口是数据流中一种关注近期数据的近似方法。为了提高对流数据聚类分析的质量及效率,对算法CluStream进行了改进,采用滑动窗口来支持数据处理。为了减少聚类操作中每次迭代的计算次数,算法采用改进的k-means来执行聚类操作。优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果。与聚类算法C luStream相比,优化算法可获得较小的内存开销和快速的数据处理能力,聚类结果更合理清晰。
- 蔡妮明王翰虎陈梅
- 关键词:流数据聚类
- 混合结构数据库中基于页迁移的存储分层算法被引量:1
- 2010年
- 为了有效地利用固态盘读速快以及磁盘低存储成本的特点,在磁盘和固态盘共存的混合存储结构模型下,设计并实现了一种基于页迁移思想的存储分层算法(SZA)。不同于NUMA的迁移代价计算方法,该算法按照迁移代价选择相应的存储介质,并且对不同工作负载的数据进行迁移。实验结果显示,算法有效地提升了数据库系统的I/O性能,同时大幅度地减少了对闪存的擦写次数。
- 王跃清黄烨王翰虎陈梅
- 关键词:数据库存储固态盘页迁移
- 垂直搜索引擎的研究与设计被引量:13
- 2010年
- 通过对垂直搜索引擎的原理和关键技术的研究,运用Lucene等JAVA开源工具设计并实现了一个手机信息检索系统。对于构建垂直搜索引擎必须要面对和解决的一些关键问题进行了分析,并给出了解决方案,如防止重复爬取网页和专业词库的扩展等,具有较强的实用性。
- 刘运强
- 关键词:搜索引擎垂直搜索爬虫LUCENE
- 基于位集合的Apriori算法的改进被引量:4
- 2011年
- 针对经典Apriori算法运行效率瓶颈问题,结合位集合占用内存空间少、逻辑运算快的特点,提出一种基于位集合的改进算法ABS。该算法通过一次数据库扫描,构建事务集位集合;采用位集合逻辑"与"运算和位统计操作确定频繁项集;改进连接和剪枝策略,采用位集合的逻辑"或"运算,统计运算结果重复出现次数,生成候选项集。挖掘实例数据库Northwind的频繁项集,对比Apriori算法,改进算法运行时间明显减少。该算法避免了数据库的重复扫描和繁琐的连接减枝操作,进一步提高了Apriori算法的运行效率。
- 王威陈梅
- 关键词:数据挖掘关联规则频繁项集APRIORI算法
- 基于置信度与隐含度削减的Apriori算法改进
- 2010年
- Apriori算法自身虽然进行了一定的优化,但它无法对最庞大的2阶候选项集进行削减,频繁项集中也至少有80%的项集不包含有效规则。其它改进算法虽然从不同角度对原算法进行了优化,但也不能解决后一个问题。文中所研究的算法,在保留原算法优化的基础上,首先引入隐含度概念及隐含度削减算法,对庞大的2阶候选项集进行削减;其次利用置信度,对k≥2阶频繁项集进行削减,同步生成关联规则,从而提高算法效率;最后讨论了只挖掘单项关联规则的可行性,仅需扫描原始数据库2次。
- 王代星张小平王翰虎
- 关键词:数据挖掘关联规则APRIORI算法改进置信度
- 基于视觉特征和领域本体的Web信息抽取被引量:5
- 2011年
- 为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。
- 张鑫陈梅王翰虎王嫣然
- 关键词:视觉特征领域本体WEB信息抽取