刘永楠
- 作品数:6 被引量:20H指数:2
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据完整性的评估方法被引量:11
- 2013年
- 随着信息技术的发展,数据的规模正在高速增长,数据中普遍存在质量问题.针对海量关系数据中普遍存在的数据不完整现象,研究了关系数据完整性度量问题.针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法.理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算.通过在DBLP数据上的实验验证了算法的有效性和高效性.
- 刘永楠邹兆年李建中王海洁
- 关键词:数据质量数据完整性
- 数据完整性的评估方法
- 信息技术的发展,数据的规模正在高速增长,数据中普遍存在质量问题.针对海量关系数据中普遍存在的数据不完整现象,研究了关系数据完整性度量问题.针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近...
- 刘永楠邹兆年李建中王海洁
- 不完整数据上的查询处理技术
- 随着大数据时代的到来,数据质量的重要性日益凸显。信息数字化过程中的种种错误,导致了数据库中的信息无法反映真实世界的完整面貌。当前的众多报告表明不完整数据会引起计算结果的偏差,进而对商业的决策和民众的生活造成广泛的不良影响...
- 刘永楠
- 关键词:不完整数据查询处理数据质量数据可用性数据完整性
- 数据完整性模型及评估算法的研究
- 随着现代信息技术的发展,数据信息呈现急剧的增长趋势,但是数据信息丰富的同时,其中往往伴随着数据质量问题,质量差的数据严重地影响了信息在数字化社会的作用。错误的理解信息,会给人们带来极大的损失。因此数据质量问题是迫切需要解...
- 刘永楠
- 关键词:数据完整性
- 文献传递
- 海量不完整数据的核心数据选择问题的研究被引量:6
- 2018年
- 在大数据时代,越来越多的带有缺失值的数据需要处理,因而数据不完整成为一种常见的数据质量问题.不完整的数据给大数据的查询、挖掘和分析带来了困难.在某些情况下,数据中的很多缺失值是无法被确定的.只能根据用户的需求,在不完整的数据上选择一部分用户感兴趣的核心数据集合,来提高不完整数据的可用性.完整度较高,规模较小,在用户感兴趣的属性上给出更多完整信息的核心数据集合,能够支持高效的查询处理,提高查询结果的准确性和完整性.该文形式化了核心数据选择问题,证明了这至少是一个NP-难问题.由于需要同时优化核心数据集合的完整度、集合的规模以及对于感兴趣属性的覆盖性,现有的基于集合覆盖问题的方法无法解决文中提出的问题.该文提出了一个采用贪心策略,具有理论保证的近似核心数据选择算法ACS.ACS首先判断当前的数据集合是否存在一个满足覆盖性要求的子集合.当这样的子集合存在时,ACS尽量选择完整的元组来组成核心数据集合,当使用完整元组无法满足覆盖性的要求时,ACS选择较少的不完整元组.ACS通过限制选择的次数来获得一个集合大小的上界是运行次数常数倍的子集合,并且保证了对于感兴趣的属性的覆盖比例.通过理论分析可知,ACS能够在近似线性的时间内,找到一个大小至多在给定的大小对数因子内的近似核心数据集合,其中被覆盖的感兴趣的属性的比例至少为(1-1/e),包含的不完整元组的个数至多为给定的核心数据集合的大小,其中e是自然对数的底数.通过在DBLP和NBA球员信息这两个真实数据集合上的实验,表明了所提出的算法ACS的有效性和高效性;通过在规模更大的合成数据上的实验,表明了ACS的良好的扩展性.
- 刘永楠李建中高宏
- 关键词:数据质量数据完整性不完整数据
- MapReduce框架下基于字符串波形的实体识别方法被引量:2
- 2011年
- 在云计算平台下需要读取大量数据进行分析,数据中大量指代同一实体的重复数据给数据的分析和处理带来了困难。基于数据记录间的相似度进行聚类分析是目前实体识别的主要方法之一,但其耗时较长,而且不适用于云计算环境。给出了一种能够很好地利用云计算特点的基于字符串波形的实体识别方法。该方法首先统计字符频率,按照字符频率的大小生成字符串的波形,再利用基于波形的过滤性质加快相似度的计算,进行基于相似度的聚类。理论分析和通过真实数据得出的实验结果都表明了这种方法的正确性和有效性。
- 刘永楠王宏志高宏
- 关键词:云计算MAPREDUCE