国家重点基础研究发展计划(2012CB316200) 作品数:58 被引量:598 H指数:10 相关作者: 李建中 高宏 黄冬梅 王宏志 王振华 更多>> 相关机构: 哈尔滨工业大学 上海海洋大学 黑龙江大学 更多>> 发文基金: 国家重点基础研究发展计划 国家自然科学基金 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 环境科学与工程 社会学 经济管理 更多>>
大规模数据清洗关键技术研究 随着信息技术的快速发展,数据规模的急剧增长以及数据种类的不断丰富,“数据即资产”的核心理念已经得到企业和政府机构的广泛认可。作为科技创新的原动力,“数据”在资产中的占比不断攀升,日益成为继“土地”和“资本”之后又一重大的... 樊峰峰关键词:数据清洗 文献传递 一种扩展条件函数依赖的发现算法 被引量:5 2015年 扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而,关注eCFD的研究工作并不多.从给定数据中发现eCFD规则是一个重要问题,据笔者所知,目前还没有这方面的工作.该问题的难点在于,给定数据中所有合法的eCFD规则之间存在不一致的情况,且包含大量冗余,而CFD和传统的函数依赖规则并没有这样的问题.为避免不一致,同时尽可能地消除冗余,定义了"强合法eCFD"和"近似无冗余eCFD".基于这些概念给出了eCFD发现问题的形式化定义,并给出了MeCFD算法.利用划分属性的方法,MeCFD首先生成所有的基本eCFD,然后,通过合并基本eCFD来构造"组合eCFD".使用先深序来搜索候选空间,使得MeCFD仅用常数的存储空间来维护数据划分,节省了大量的空间开销,有效的剪枝策略被用来改进MeCFD的性能.真实数据集上的实验结果显示出MeCFD良好的可扩展性以及剪枝策略和优化方法的有效性. 刘显敏 李建中关键词:搜索算法 剪枝策略 冗余 不一致数据上查询结果的一致性估计 被引量:2 2015年 主键约束是描述关系数据一致性的常用方法,基于主键约束的数据一致性修复返回一个极大子集,子集中不同数据的主键不同.对于合取查询Q,一致性合取查询返回一个答案集合,答案集合是Q在数据集合I的每一个修复下查询结果的交集.文中将Q在I中的查询结果满足一致性的个数占总的结果个数的比例定义为查询结果的一致性程度.若Q不可一阶表达且不能在多项式时间内得到其一致性解,则当Q答案个数超过30时,使用抽样的方法给答案集合一致性程度的一个(ε,δ)-估计.由于布尔合取查询的一致性判定问题是coNP-完全问题,因此在估计过程中,使用攻击图,通过攻击图对布尔查询q进行改写近似判断q近似一致性回答.实验表明了估计算法和近似判定算法具有较高的效率和准确率. 刘雪莉 李建中TSEA:极地科考在线系统中海量走航数据的剔除算法 被引量:1 2017年 在对环境极端恶劣的两极区域进行科考的过程中,科考船状态的实时监控及反馈是推动极地科考事业的重要保障。在极地科考过程中,由于走航数据采集频率高,监测手段多样化,催生了具有多源、多类、多态等特性的海量数据,因此如何实时在线快速展示极地科考走航数据是21世纪海洋事业面临的巨大挑战。针对极地监控业务化平台中的快速可视化关键问题,提出了TSEA(Time-Space elimination algorithm)数据剔除算法,通过对数据进行冗余剔除及压缩等操作,使得在对数据进行快速展示时更加快速与高效。TSEA算法在极地科考在线系统中提供了技术支撑,已投入使用于第31次南极科学考察,并得到了相关单位的一致好评。 黄冬梅 韦躐晟 王振华 何盛琪 苏诚 黄雅馨PEIF:基于并行机群的大数据实体识别算法 被引量:4 2013年 数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别. 李明达 王宏志 张佳程 李建中 高宏关键词:大数据 高效的实体匹配结果消解算法 2013年 实体同一性检测问题,即实体识别问题,是数据质量领域一个比较热门的研究问题.利用运行在两个实体上的实体匹配算法求解实体识别问题是目前研究工作中最主要的一个思路.然而,实体匹配算法的输出结果中可能有"歧义",使得算法的输出很难直接转化为实体识别问题的结果.考虑如何利用额外的知识来消去这种"歧义",形式化定义了实体匹配结果消解问题.该问题被证明是NP-完全问题.一个基于线性规划的近似算法Round被给出,它的近似比是O(log n),针对特殊情况,一个随机近似算法KwikResolution被给出.考虑到两个算法各自的不足,4个直观的启发式算法被给出.实验结果验证了理论分析的结果,并且证明了给出的启发式算法是有效的. 刘显敏 李建中关键词:消解 启发式算法 基于知识库的互联网商品信息分类与推荐系统 基于知识理解的数据挖掘技术在电子商务中可以应用到商品分类和推荐方面.为了弥补传统的基于关键词分类的不足,帮助消费者有效、准确、快速地查询所需信息,系统通过使用Probase概念、实体、属性知识分层模型,把检索出来的具有相... 周小田 王宏志 郭翔宇 胡筱 董志鑫 李建中 高宏关键词:知识库 文献传递 TMS:一种新的海量数据多维选择Top-k查询算法 被引量:4 2017年 在许多应用中,Top-k是一种十分重要的查询类型,它在潜在的巨大数据空间中返回用户感兴趣的少量数据.Top-k查询通常具有指定的多维选择条件.分析发现:现有算法无法有效处理海量数据的多维选择Top-k查询.提出了一个基于有序列表的TMS(top-k with multi-dimensional selection)算法,有效计算海量数据上的具有多维选择的Top-k结果.TMS算法利用层次化结构的选择属性网格对原数据表执行水平划分,每一个分片的元组以面向列的模式存储,并且度量属性的列表根据其属性值降序排列.给定多维选择条件,TMS算法利用选择属性网格确定相关网格单元,有效减少需要读取的元组数量,提出双排序方法执行多维选择的渐进评价,并提出有效剪切操作来剪切不满足多维选择条件和分数要求的候选元组.实验结果表明:TMS算法性能优于现有算法. 韩希先 刘显敏 李建中 高宏不确定图上期望最短距离的计算 被引量:5 2012年 研究了不确定图上的最短距离问题,提出了期望最短距离的概念,证明了该问题不存在多项式时间的算法.为了解决该问题,使用了随机采样技术获得不确定图的一些可能世界,在每个可能世界上计算有穷的最短距离,最后计算出平均值作为期望最短距离的估计值.为提高计算效率,使用了过滤条件来减少采样过程中采样的边数从而加快随机采样.在此基础上,提出了一种基于对称变量的、无偏的随机采样近似算法,并证明了与直接随机采样方法相比,该方法在不增加时间开销的同时能减小采样方差.通过真实数据上的实验表明,提出的算法在时间开销和采样方差上均明显好于直接随机采样方法. 李鸣鹏 邹兆年 高宏 赵正理关键词:随机采样 基于医疗知识库的辅助诊疗系统 被引量:4 2016年 针对电子医疗信息日益增加而对其的组织利用率低的问题,提出了基于医疗知识库的辅助诊疗系统。首先,通过对医疗知识库中的疾病信息进行分词操作,建立倒排索引表;然后,计算输入的症状信息与相关疾病的相似度并进行排序,以作出诊断;其次,根据用户的反馈信息采用动态确定原有信息与反馈信息权重比的反馈查询方法进行优化诊断;最后,利用贝叶斯分类算法根据病例信息对进一步的检查方式作出推荐。实验结果表明,在所规定的统计策略下,初步诊断时系统的召回率达到95%,准确率达到85%,在优化诊断之后准确率达到95%。该系统以工具的形式给医疗工作者以提示,帮助提高医疗水平和质量。 马钰 王宏志 高宏关键词:辅助诊疗 医疗信息化 贝叶斯分类