张磊
- 作品数:1 被引量:6H指数:1
- 供职机构:北京航空航天大学软件学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop的大数据清洗框架设计与应用被引量:6
- 2015年
- 构建和运行数据仓库的关键步骤是ETL,而ETL中的最关键步骤就是数据的清洗和转换。在当今数据爆炸式增长的背景下,数据清洗与转换的挑战主要来自于源数据的复杂性和数据量的庞大,针对数据庞大的问题,目前Hadoop体系的Mapreduce框架已经成为海量数据处理领域的事实标准。本文主要分析在大数据环境下数据清洗工作中数据来源的复杂性问题,并针对这些问题提出了基于Hadoop的简单的可扩展的数据清洗框架,可以让本框架的使用者只需要用少量代码完成基于Mapreduce的海量复杂数据的清洗工作,Mapreduce的复杂性对开发者透明。并以某互联网公司使用此框架收集的用户行为日志数据作为示例,在示例中,此框架相比之前的解决方案极大地提高了海量数据清洗的准确性和效率。另外,本框架还可以应用于海量的非结构化数据的清洗。
- 靳丹张磊张磊王洪军
- 关键词:数据清洗HADOOPMAPREDUCE大数据