您的位置: 专家智库 > >

黄沈滨

作品数:4 被引量:24H指数:2
供职机构:哈尔滨工业大学网络与信息中心更多>>
发文基金:国家自然科学基金中国博士后科学基金国家教育部博士点基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 2篇MAP-RE...
  • 2篇大数据
  • 1篇数据云
  • 1篇数据质量
  • 1篇随机场
  • 1篇条件函数依赖
  • 1篇切分
  • 1篇切分算法
  • 1篇缺失值
  • 1篇缺失值填充
  • 1篇马尔科夫
  • 1篇马尔科夫随机...
  • 1篇函数依赖
  • 1篇分布式
  • 1篇分布式数据

机构

  • 4篇哈尔滨工业大...
  • 1篇华润万东医疗...

作者

  • 4篇黄沈滨
  • 3篇王海洁
  • 2篇朱振华
  • 1篇杨庆海
  • 1篇卢波
  • 1篇金连
  • 1篇高宏
  • 1篇王宏志

传媒

  • 2篇智能计算机与...
  • 1篇计算机研究与...
  • 1篇计算机工程

年份

  • 2篇2015
  • 2篇2013
4 条 记 录,以下是 1-4
排序方式:
分布式数据不一致性检测的实现与优化
2015年
数据的不一致性检测是数据清洗中一个重要的主题。传统集中式数据的不一致性检测问题可以使用基于SQL的技术得到解决,而对于分布式的数据,往往面临着诸多挑战。目前研究者提出了基于函数条件依赖的不一致性检测技术对该问题进行了深入研究,将分布式不一致性检测问题转化成最优化问题,并提出了若干可行的解决算法。本文介绍了分布式数据下的基于函数条件依赖的不一致性检测问题,并实现了基于最优化问题的分布式检测算法,最后组织相关实验进行验证和改进。
王海洁黄沈滨朱振华
关键词:分布式数据条件函数依赖
基于马尔科夫随机场的粘连字符串切分算法被引量:5
2013年
粘连字符串模式复杂,难以通过基于传统图像处理的方法进行准确分割,针对该问题,提出一种基于机器学习的粘连字符串切分方法。包括训练和分割2个部分,对字符串之间的分割位置进行学习,对于输入的粘连字符串,利用马尔科夫随机场网络得到各点可作为分割点的概率,在概率图上使用图像分割的算法确定分割位置。实验结果表明,该算法对模拟的粘连字符串、重叠字符串和真实的手写字符串都可以得到较好的分割结果。
杨庆海卢波颜子夜黄沈滨王海洁
关键词:马尔科夫随机场
大数据云清洗系统的设计与实现被引量:1
2015年
数据清洗是大数据中一个重要的主题。本文基于Hadoop设计并实现了一个大数据的云清洗系统。通过Map-Reduce计算模型,该系统能够检测并修复数据质量方面的各类问题。该系统包含以下特征:(1)支持数据质量方面各类问题的清洗工作;(2)数据云清洗进度可视化以及参数设置;(3)友好的数据集输入接口以及清洗后的数据集输出接口。该大数据云清洗系统对文本数据和数据库数据均是一个有效且高效的数据清洗系统。
黄沈滨王海洁朱振华
关键词:大数据数据质量MAP-REDUCE
基于Map-Reduce的大数据缺失值填充算法被引量:18
2013年
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.
金连王宏志黄沈滨高宏
关键词:缺失值填充MAP-REDUCE
共1页<1>
聚类工具0