您的位置: 专家智库 > >

辽宁省教育厅高等学校科学研究项目(L2010229)

作品数:9 被引量:52H指数:3
相关作者:任永功杨荣杰尹明飞宋奎勇寇香霞更多>>
相关机构:辽宁师范大学更多>>
发文基金:辽宁省教育厅高等学校科学研究项目教育部留学回国人员科研启动基金大连市优秀青年科技人才基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 9篇中文期刊文章

领域

  • 9篇自动化与计算...

主题

  • 4篇数据挖掘
  • 4篇频繁项
  • 4篇项集
  • 3篇数据流
  • 3篇频繁项集
  • 2篇频繁项集挖掘
  • 2篇文本
  • 2篇文本分类
  • 2篇文本特征
  • 1篇信息增益
  • 1篇增量式
  • 1篇数据集
  • 1篇频繁模式树
  • 1篇频繁项集挖掘...
  • 1篇频繁项目集
  • 1篇自适
  • 1篇自适应
  • 1篇自适应阈值
  • 1篇阈值
  • 1篇模式树

机构

  • 9篇辽宁师范大学

作者

  • 9篇任永功
  • 3篇尹明飞
  • 3篇杨荣杰
  • 2篇寇香霞
  • 2篇李雪兰
  • 2篇宋奎勇
  • 1篇孙宇奇
  • 1篇祁艳艳
  • 1篇吕朕
  • 1篇马名威

传媒

  • 4篇计算机应用与...
  • 3篇计算机科学
  • 1篇广西师范大学...
  • 1篇微电子学与计...

年份

  • 1篇2013
  • 6篇2012
  • 2篇2011
9 条 记 录,以下是 1-9
排序方式:
一种基于聚类分析的事务间关联规则挖掘算法被引量:1
2011年
现有算法实现了事务内到事务间最大频繁项目集的转换,能够直接发现不同用户之间的关联关系。但在处理较大的事务数据库时,由于是在原数据库基础上进行关联分析,产生了大量的虚假规则。针对上述问题提出一种基于聚类分析的事务间关联规则挖掘算法,利用聚类分析将初始的复杂的数据集进行约简,去掉冗余数据,缩小数据集,避免了多次扫描数据库和大量的虚假规则的产生。实验结果表明该方法比单独使用事务间的关联规则方法具有更高的效率,能更准确地预测用户的兴趣性。
祁艳艳任永功
关键词:WEB数据挖掘聚类分析
基于组合特征的动态垃圾博客过滤算法被引量:2
2012年
近几年,垃圾博客过滤成为国际上新的热点研究领域。现有的过滤算法大多基于词频特征分类,特征冗余并缺乏关联性。为了解决此问题,提出一种基于组合特征的动态垃圾博客过滤算法(CFDSD),该算法采用作者属性和自相似特征来解决特征冗余和关联性低的问题,并应用贝叶斯分类算法优化词频特征分类。实验表明,该算法能适应博客随时间变化而动态更新的特点,同时提高了过滤效率。
任永功尹明飞杨荣杰
关键词:贝叶斯分类
基于信息增益的文本特征选择方法被引量:31
2012年
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
任永功杨荣杰尹明飞马名威
关键词:文本分类不平衡数据集
基于WCF-tree加权滑动窗口数据流元项集挖掘被引量:1
2012年
数据流挖掘是当今数据挖掘领域内热点研究问题。通常频繁项集的数据量大,影响挖掘结果的理解与应用,提出一种基于WCF-tree加权滑动窗口数据流元项集挖掘算法(TWEM算法)。首先,考虑到数据在不同时间窗口内的重要性,允许用户定义窗口个数和各窗口权值;其次,利用WCF-tree挖掘闭项集;最后,结合各等价类内项集与相应元项集支持度不完全相同,保持一种可估算的关系的特性,挖掘元项集。实验结果表明,TWEM算法缩小了搜索空间,提高了程序的运行效率。
任永功李雪兰
关键词:闭项集数据流数据挖掘
一种自适应阈值的简洁性约束频繁项目集挖掘算法被引量:1
2011年
基于约束关联挖掘,近几年在国际上受到较大关注。从许多约束的关联挖掘算法中发现,传统的约束阈值大多是通过专家给定或经过反复试验得出的,缺乏用户反馈与客观依据的支持。为了解决此问题,提出一种面向用户需求的阈值构造方法,该方法引用正态分布理论获得自适应约束阈值,并应用简洁性约束对FGC算法进行改进;同时提出一种快速、直观、有效的频繁项目集挖掘算法。实验证明,该算法在增强系统可用性的同时降低了算法运行时间。
任永功吕朕孙宇奇
关键词:频繁模式树频繁项目集自适应阈值
一种基于滑动窗口的数据流频繁项集挖掘算法被引量:11
2013年
数据流的流动性与连续性,使得数据流所蕴含的知识会随着时间的推移而发生变化。挖掘数据流中的频繁项集是一项意义重大且具有挑战性的工作。提出一种基于滑动窗口数据流的频繁项集挖掘——FIUT-Stream算法,FIUT-Stream算法分块挖掘数据流,在内存中维持一个滑动窗口数据的概要结构,随着窗口滑动动态更新该存储结构,利用FIUT算法进行频繁项集挖掘。实验表明,该算法能节省内存空间、精确获得频繁项集。
寇香霞任永功宋奎勇
关键词:数据流频繁项集
基于特征权重与词间相关性的文本特征选择算法被引量:3
2012年
传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。
任永功杨荣杰尹明飞
关键词:RELIEFF算法文本分类
基于矩阵的数据流频繁模式预测算法被引量:1
2012年
随着数据挖掘的广泛应用,许多实际的数据挖掘应用需要用过去和当前数据对未来数据状态进行预测,针对这一现状,文中提出基于矩阵的数据流频繁模式预测算法(MFP).MFP算法可预测在下一时间窗口中可能性较大的频繁项集,以满足用户需要.该算法首先将数据转换为0-1矩阵;然后通过矩阵剪裁和位运算更新矩阵,并从中挖掘频繁项集;最后,利用当前窗口数据预测下一时间窗口中可能出现的频繁项集.实验结果表明,MFP算法在不同实验环境下能有效预测频繁项集,该算法是可行的.
任永功李雪兰
关键词:频繁项集数据流数据挖掘矩阵
基于FIUT结构增量式频繁项集挖掘被引量:1
2012年
增量式频繁项集挖掘是当前研究的热点,基于FP-Growth的Pre-FUFP算法有效处理了频繁模式的更新,但需递归遍历FP-tree,导致效率较低。提出Pre-FIUT算法,引入频繁超度量树结构,提高了获得频繁项集挖掘效率;基于FIUT的Pre-FIUT可通过查看频繁超度量树叶子结点的支持度确定频繁项集,并与次频繁项集概念相结合进行增量式频繁项集挖掘。实验表明,Pre-FIUT算法能快速扫描和更新数据,合理利用内存,精确获得频繁项集。
寇香霞任永功宋奎勇
关键词:数据挖掘频繁项集
共1页<1>
聚类工具0