您的位置: 专家智库 > >

李曲

作品数:6 被引量:16H指数:3
供职机构:华中科技大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金重庆市自然科学基金国家教育部博士点基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇中文期刊文章

领域

  • 6篇自动化与计算...

主题

  • 3篇频繁项
  • 3篇频繁项目集
  • 2篇数据立方
  • 2篇文本分类
  • 1篇信息检索
  • 1篇元组
  • 1篇实数
  • 1篇浓缩数据立方
  • 1篇批处理
  • 1篇最大频繁序列
  • 1篇文本表示
  • 1篇文本聚类
  • 1篇小方
  • 1篇模拟数据
  • 1篇内存
  • 1篇聚簇
  • 1篇聚类
  • 1篇句子
  • 1篇关联规则
  • 1篇SAT

机构

  • 6篇华中科技大学

作者

  • 6篇李曲
  • 5篇冯剑琳
  • 2篇冯玉才
  • 2篇王元珍
  • 2篇龙昊
  • 1篇何玉
  • 1篇方琼
  • 1篇张晨静
  • 1篇邹晶

传媒

  • 5篇计算机科学
  • 1篇计算机应用研...

年份

  • 1篇2006
  • 3篇2005
  • 2篇2004
6 条 记 录,以下是 1-6
排序方式:
基于浓缩数据立方的内存实化小方的动态选择被引量:2
2005年
OLAP通常使用预计算数据立方的方法提高可能的聚集查询的响应速度,在内存实化预计算的数据,可以更进一步加快响应的速度,但是受到内存空间的限制。在浓缩数据立方的环境中,动态地选择一定的数据小方在内存实化,加快响应速度,并更好地适应不同的查询模式。给出了在动态选择模型中,特定存储方式下的查询分解和响应算法。
王元珍张晨静李曲冯剑琳
关键词:浓缩数据立方
SAT-TC:基于关联的层次文档聚类被引量:4
2004年
在一篇文档中,一个单词可以看作是一个项目,一组单词就是一个项目集。在以往的基于关联的文本聚类方法中,都是将一整篇文档看作是一个事务来挖掘频繁项目集和关联规则的。但是实际上,一篇文档中的基本语义单位是句子。在同一个句子中同时出现的一组词在语义上或多或少都是相互关联的,与分布在多个句子中的同一组词相比,前者要有意义得多。因此,基于以上发现,我们考虑将文档中的每一个句子看作是一个事务。一篇文档就被看作是一个事务的集合,并由此提出了一种新的文本聚类方法:SAT—TC。通过在标准测试集上的实验证明,SAT-TC要优于传统的文本聚类算法。
李曲龙昊
关键词:频繁项目集聚簇
SAT-FOIL+:基于句子级关联的文本分类被引量:1
2005年
以往基于词语关联的方法在挖掘频繁项集和关联规则时,都是将整个文本看作一个亨务来处理的,然而文本的基本语义单元实际上是句子。那些同时出现在一个句子里的一组单词比仅仅是同时出现在同一篇文档中的一组单词有更强的语义上的联系。基于以上的考虑,我们把一篇文档里的一个句子作为一个单独的事务,从而提出了一种基于句子级关联的分类方法SAT-FOIL。并在本文中提出新的得分模型来获得改进的新算法SAT-FOIL+。通过在标准的文本集Reuters上的大量实验,不仅证明新模型的优越性,而且证明了SAT-FOIL+分类效果同其他几种分类方法是可比的,并且要远远好于以往的基于文档级关联的分类方法。另外,挖掘出来的分类规则还具有易读性,并且易修改。
冯玉才李曲何玉冯剑琳
关键词:文本分类频繁项目集
R-means:以关联规则为簇中心的文本聚类被引量:5
2005年
本文将k-means与关联规则(或频繁项目集)相结合,提出了一种新的文本聚类算法R-means。R-means算法以关联规则作为簇中心,通过类似于k-means的迭代优化得到最终的簇。因此R-means不仅继承了k-means的简单性,而且用关联规则产生的簇描述易于为人们所理解。在几个实际数据集上的实验表明该算法可以得到高精度和高性能。
龙昊冯剑琳李曲
关键词:关联规则频繁项目集信息检索
基于句子级的最大频繁序列的文本分类被引量:2
2006年
本文提出了一种新的文本分类方法。这种方法将一篇文本的一个句子看作一个事务.一个段落看作是一个序列,则一篇文本表示成一个序列的集合。我们从每篇训练文本中挖出最大频繁序列用以表示这篇文本,这种表示方法可大大提高训练及分类速度,同时也可以几乎不损失分类精度。在数据集 Reuters-21578上的大量实验证明这种方法要远远好于其他的文本级的基于关联的分类方法。
邹晶冯剑琳李曲王元珍
关键词:文本分类句子文本表示
PrefixCube计算的优化被引量:5
2004年
基本单元组浓缩把那些由同一条基表元组聚集计算得到的立方元组浓缩成一条,从而减小数据立方的体积。共享前缀技术通过消除元组之间的前缀冗余来进一步压缩数据立方。PrefixCube就是将基本单元组的浓缩与共享前缀结合,而提出的一种有效的数据立方组织形式。在本文中,我们以批处理模式进一步优化计算PrefixCube,从而减少PrefixCube的计算时间代价。通过在模拟数据集和真实数据集上的实验证明,在大多数数据集上,以批处理模式计算PrefixCube要优于一般模式计算PrefixCube。
冯玉才方琼李曲冯剑琳
关键词:数据立方元组批处理模拟数据实数
共1页<1>
聚类工具0