李又奎
- 作品数:4 被引量:19H指数:2
- 供职机构:华中科技大学计算机科学与技术学院更多>>
- 发文基金:国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 模糊等值理论在数据清理中的应用(英文)
- 2004年
- 提出了规则合并的优化方法和重复记录聚类清除的方法.应用模糊等值理论,避免了传统等值理论非此即彼的僵硬方式,但清理过程中部分规则可能存在包含与被包含的关系,被包含的规则其等值度显然会相对较小,根据用户阀值提出了规则合并的优化方法,可减少重复记录的计算时间.基于同样的原因,规则间的包含与被包含关系将影响模糊等值度的误差分析,因此提出了利用忽略被包含的规则等值度提高误差分析精度的改进模糊等值理论误差分析方法.重复记录的核实通常需要人工逐条检测,易于出错,本文提出的聚类算法,可节省大量的用户劳动.最后给出一个实验,表明了规则优化的可能性.
- 李华旸刘玉葆李又奎
- 关键词:等值理论数据清理
- 生成具有层次特征XML模式的简化算法被引量:1
- 2005年
- XML已经广泛地应用于数据描述及数据交换,然而日常数据的大部分依旧存放在关系型数据库里,因此转换关系数据到XML文档的需求日益增长,如何高效生成用户满意的XML模式是其中的关键。NeT&CoT算法2是近年来提出的可根据给定的关系模式生成具有层次特征的XML的自动转换算法,然而它存在效率不高的问题。因此,该文在NeT&CoT算法的基础上提出了简化算法,通过引入四个简化性质,避免了费时的nest操作,提高了转换效率。
- 张志兵李华李又奎
- 关键词:XMLXML模式
- 面向流数据的数据管理系统的研究被引量:11
- 2005年
- 传统关系数据库系统通常用来存储没有时间概念的相对静止的数据,对于一些新的应用领域,信息是以数据序列的形式产生并且需要实时地、持续地进行处理,这就超出了传统系统的解决能力。数据流数据管理系统是面向流数据而设计的数据管理系统,它能有效地处理输入流数据并提供持续检索的功能。从整体上分析数据流管理系统的体系结构,重点讨论基于流数据的数据模型和流查询。
- 桂浩冯玉才李又奎
- 关键词:数据流管理系统数据库
- 数据分析和清理中相关算法研究被引量:7
- 2005年
- 数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户.
- 冯玉才桂浩李华李又奎
- 关键词:数据清理