王煜 作品数:5 被引量:31 H指数:3 供职机构: 河海大学计算机及信息工程学院 更多>> 发文基金: 国家重点基础研究发展计划 江苏省自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
高维数据挖掘算法的研究与进展 被引量:11 2006年 生物信息学和电子商务应用的迅速发展积累了大量高维数据,对高维数据的挖掘变得越来越重要,一般的数据挖掘方法在处理高维数据时会遇到维灾的问题,同时传统相似性度量在高维空间中也变得没有意义。文章从频繁项集挖掘、聚类、分类等三个方面对最新的高维数据挖掘算法的现状进行了综述,对这些算法如何解决高维数据挖掘存在的问题进行研究。 陈慧萍 王煜 王建东关键词:数据挖掘 高维数据挖掘 聚类 子空间聚类算法的研究新进展 被引量:4 2007年 高维数据聚类是聚类技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。该文从不同的搜索策略即自顶向下策略和自底向上策略两个方面对子空间聚类算法的思想进行了介绍,对近几年提出的子空间聚类算法作了综述,从算法所需参数、算法对参数的敏感度、算法的可伸缩性以及算法发现聚类的形状等多个方面对典型的子空间聚类算法进行了比较分析,对子空间聚类算法面临的挑战和未来的发展趋势进行了讨论。 陈慧萍 王煜 王建东关键词:数据挖掘 聚类 高维数据集 子空间 基于模糊数据挖掘的网络入侵检测模型(英文) 被引量:1 2005年 提出了一个基于模糊数据挖掘的入侵模型。异常检测的一个主要问题是正常模式随时间变化。如果一个实际的入侵行为稍有偏差就有可能与正常的模式相匹配,而异常检测系统则无法检测到这种入侵行为。为解决这个问题,本文利用模糊数据挖掘技术建立正常模式,并用一组模糊关联规则表示。在进行异常检测时,利用新的审计数据挖掘当前模糊关联规则,并计算其与正常模式的相似度,如相似度低于规定的阈值,使其产生入侵警报。最后,文中利用遗传算法优化模糊成员函数来选择其参数。 陈慧萍 王建东 叶飞跃 王煜关键词:入侵检测 数据挖掘 模糊逻辑 异常检测 一种高效的最大频繁项集挖掘算法DFMFI-Miner 被引量:1 2006年 分析最大频繁项集和完全频繁项集的关系,提出了一个挖掘最大频繁项集的高效算法DFMFI M iner(The M iner Basedon D epth-F irst Search ing forM in ingMaximal Frequent Item sets),采用深度优先方法搜索项集空间,采用垂直位图及一定的压缩方法对表示事务数据库并进行约简,并采用多种有效剪枝策略和优化策略,提高了算法的效率。在多个数据集上进行了实验,实验结果表明该算法特别适于挖掘具有长频繁项集的数据集。 陈慧萍 王建东 王煜关键词:数据挖掘 深度优先搜索 频繁项集 最大频繁项集 频繁项集挖掘的研究与进展 被引量:15 2006年 挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空间的类型、搜索方法和剪枝策略、数据库的表示方法、数据压缩技术等几个方面对频繁项集挖掘的基本策略进行了研究,对完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘的典型算法特别是最新算法进行了介绍和评述,并分析了各种算法的性能特点,指出其适于哪种类型的数据集。最后,对频繁项集挖掘算法的发展方向进行了初步的探讨。 陈慧萍 王建东 王煜关键词:数据挖掘 频繁项集 搜索方法 剪枝策略