黄少寅
- 作品数:1 被引量:2H指数:1
- 供职机构:北京大学光华管理学院更多>>
- 发文基金:上海市“科技创新行动计划”国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- XML数据流分页频繁子树挖掘研究被引量:2
- 2012年
- 随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等.针对上述问题,提出数据流分页频繁子树挖掘模型Tmlist.Tmlist对XML数据流进行分页,管理跨页节点及频繁候选子树的跨页增长,逐页挖掘频繁子树;频繁候选子树的增长根据根节点层次由浅至深地在最右路径加入频繁候选节点,避免以低层次为根子树的重复性递归增长;对频繁候选子树采用子树拓扑序列和最右路径共同标识,子树的增长不需要对子树前缀进行匹配,省去前缀节点存储与匹配开销;以页面最小支持度对频繁候选子树按页筛选,子树按页面衰减度衰减支持度、剪枝.Tmlist在可控误差范围内降低频繁子树挖掘的空间消耗,提高内存利用率和挖掘效率.
- 雷向欣杨智应黄少寅胡运发
- 关键词:XML数据流分页频繁子树数据挖掘