卞昊穹
- 作品数:8 被引量:50H指数:2
- 供职机构:中国人民大学信息学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 日志数据分片与查询方法及装置
- 本发明提供一种日志数据分片与查询方法及装置。该方法包括:获取日志数据中各个实体的编码,并对每个实体编码进行哈希操作,获取一个数据分片,然后对每个数据分片中的日志信息按照日志信息的实体的编码进行顺序排序,获取数据分组列表,...
- 陈跃国覃雄派杜小勇卞昊穹
- 文献传递
- 实时数据存储与查询方法
- 本发明提供一种实时数据存储与查询方法,存储时,通过采用一致性哈希分片将待存储数据进行划分,在分布式存储系统的至少一个分布式节点中得到携带有一致性哈希分片索引信息的一级索引数据,对同一个分布式节点中的至少两个一级索引数据进...
- 陈跃国杜小勇覃雄派卞昊穹程鳌赵丽萍
- 文献传递
- 日志数据分片与查询方法及装置
- 本发明提供一种日志数据分片与查询方法及装置。该方法包括:获取日志数据中各个实体的编码,并对每个实体编码进行哈希操作,获取一个数据分片,然后对每个数据分片中的日志信息按照日志信息的实体的编码进行顺序排序,获取数据分组列表,...
- 陈跃国覃雄派杜小勇卞昊穹
- Spark上的等值连接优化
- 等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和...
- 卞昊穹陈跃国杜小勇高彦杰
- 关键词:并行数据库迭代计算海量数据
- 文献传递
- 实时数据存储与查询方法
- 本发明提供一种实时数据存储与查询方法,存储时,通过采用一致性哈希分片将待存储数据进行划分,在分布式存储系统的至少一个分布式节点中得到携带有一致性哈希分片索引信息的一级索引数据,对同一个分布式节点中的至少两个一级索引数据进...
- 陈跃国杜小勇覃雄派卞昊穹程鳌赵丽萍
- 文献传递
- Spark上的等值连接优化被引量:12
- 2014年
- 等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
- 卞昊穹陈跃国杜小勇高彦杰
- HDFS存储和优化技术研究综述被引量:38
- 2020年
- HDFS(Hadoop distributed file system)作为面向数据追加和读取优化的开源分布式文件系统,具备可移植、高容错和可大规模水平扩展的特性.经过10余年的发展,HDFS已经广泛应用于大数据的存储.作为存储海量数据的底层平台,HDFS存储了海量的结构化和非结构化数据,支撑着复杂查询分析、交互式分析、详单查询、Key-Value读写和迭代计算等丰富的应用场景.HDFS的性能问题将影响其上所有大数据系统和应用,因此,对HDFS存储性能的优化至关重要.介绍了HDFS的原理和特性,对已有HDFS的存储及优化技术,从文件逻辑结构、硬件设备和应用负载这3个维度进行了归纳和总结.综述了近年来HDFS存储和优化相关研究.未来,随着HDFS上层应用的日益丰富和底层硬件平台的发展,基于异构平台的数据存储、面向应用负载的自适应存储优化以及结合机器学习的存储优化技术将成为未来研究的主要方向.
- 金国栋卞昊穹卞昊穹陈跃国
- 关键词:HDFS分布式文件系统数据分析
- 宽表列存储在大数据分析中的应用与优化
- 相对于行存,列存极大提高了宽表上分析负载的I/O性能,当一个查询只访问1000列中的20个时,无须读取整个数据块,最大限度减少了所读取的数据量。
- 卞昊穹
- 关键词:大数据