王会举
- 作品数:5 被引量:1,011H指数:4
- 供职机构:教育部更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向大规模机群的可扩展OLAP查询技术被引量:8
- 2015年
- 大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge 3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级.
- 王会举覃雄派王珊张延松李芙蓉
- 关键词:OLAP查询
- 架构大数据:挑战、现状与展望被引量:623
- 2011年
- 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望.
- 王珊王会举覃雄派周烜
- 关键词:大数据MAPREDUCE并行数据库
- 架构大数据:挑战、现状与展望
- 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者...
- 王珊王会举覃雄派周烜
- 关键词:数据仓库系统并行数据库
- 大数据分析——RDBMS与MapReduce的竞争与共生被引量:388
- 2012年
- 在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,为了分析和利用这些庞大的数据资源,必须依赖有效的数据分析技术.传统的关系数据管理技术(并行数据库)经过了将近40年的发展,在扩展性方面遇到了巨大的障碍,无法胜任大数据分析的任务;而以MapReduce为代表的非关系数据管理和分析技术异军突起,以其良好的扩展性、容错性和大规模并行处理的优势,从互联网信息搜索领域开始,进而在数据分析的诸多领域和关系数据管理技术展开了竞争.关系数据管理技术阵营在丧失搜索这个阵地之后,开始考虑自身的局限性,不断借鉴MapReduce的优秀思想改造自身,而以MapReduce为代表的非关系数据管理技术阵营,从关系数据管理技术所积累的宝贵财富中挖掘可以借鉴的技术和方法,不断解决其性能问题.面向大数据的深度分析需求,新的架构模式正在涌现.关系数据管理技术和非关系数据管理技术在不断的竞争中互相取长补短,在新的大数据分析生态系统内找到自己的位置.
- 覃雄派王会举杜小勇王珊
- 关键词:大数据MAPREDUCE
- 数据管理技术的新格局被引量:111
- 2013年
- 数据获取技术的革命性进步、存储器价格的显著下降以及人们希望从数据中获得知识的客观需要等,催生了大数据.数据管理技术迎来了大数据时代.关系数据库技术经历了20世纪70年代以来40年的发展,目前遇到了系统扩展性不足、支持数据类型单一等困难.近年来,noSQL技术异军突起,对多种类型的数据进行有效的管理、处理和分析;通过并行处理技术获得良好的系统性能;并以其高度的扩展性,满足不断增长的数据量的处理要求.试图沿着数据库技术进步的历史脉络,从应用维度(操作型与分析型应用)入手,为读者展开当今数据管理技术的新格局,讨论具有挑战性的重要问题,并介绍作者自己的研究工作.
- 覃雄派王会举李芙蓉李翠平陈红周烜杜小勇王珊
- 关键词:关系数据库NOSQL大数据