您的位置: 专家智库 > >

黄少寅

作品数:1 被引量:2H指数:1
供职机构:北京大学光华管理学院更多>>
发文基金:上海市“科技创新行动计划”国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇数据流
  • 1篇数据挖掘
  • 1篇频繁子树
  • 1篇子树
  • 1篇分页
  • 1篇XML
  • 1篇XML数据
  • 1篇XML数据流

机构

  • 1篇复旦大学
  • 1篇北京大学
  • 1篇华东理工大学
  • 1篇上海海事大学

作者

  • 1篇雷向欣
  • 1篇胡运发
  • 1篇黄少寅
  • 1篇杨智应

传媒

  • 1篇计算机研究与...

年份

  • 1篇2012
1 条 记 录,以下是 1-1
排序方式:
XML数据流分页频繁子树挖掘研究被引量:2
2012年
随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等.针对上述问题,提出数据流分页频繁子树挖掘模型Tmlist.Tmlist对XML数据流进行分页,管理跨页节点及频繁候选子树的跨页增长,逐页挖掘频繁子树;频繁候选子树的增长根据根节点层次由浅至深地在最右路径加入频繁候选节点,避免以低层次为根子树的重复性递归增长;对频繁候选子树采用子树拓扑序列和最右路径共同标识,子树的增长不需要对子树前缀进行匹配,省去前缀节点存储与匹配开销;以页面最小支持度对频繁候选子树按页筛选,子树按页面衰减度衰减支持度、剪枝.Tmlist在可控误差范围内降低频繁子树挖掘的空间消耗,提高内存利用率和挖掘效率.
雷向欣杨智应黄少寅胡运发
关键词:XML数据流分页频繁子树数据挖掘
共1页<1>
聚类工具0