公共文化服务平台

高锦涛: 作品数：12 被引量：20H指数：3; 供职机构：西北工业大学计算机学院更多>>; 发文基金：国家自然科学基金中央高校基本科研业务费专项资金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

支持强鲁棒性的分布式查询优化关键技术研究: 分布式环境下,连接查询一直是数据库系统的性能瓶颈,而查询优化是改善此性能瓶颈的主要方法。但是现有的分布式查询优化技术,当优化相关的因素,如统计信息、数据分布、节点状态等,发生波动时,缺乏保证优化质量的能力,进而导致查询性...; 高锦涛; 关键词：鲁棒性分布式查询优化自适应遗传算法

面向分布式数据库的HTAP研究与实现被引量：2: 2021年; 数据处理可大致分为2类,联机事务处理OLTP(on-line transaction processing)和联机分析处理OLAP(on-line analytical processing)。OLTP是传统关系型数据库的主要应用,支持一些基本的日常的事务处理,如银行流水交易等。OLAP是数据仓库系统的主要应用,支持一些较为复杂的数据分析操作,专注于决策支持,提供出通俗直观的分析结果。随着企业处理数据量的不断增加,分布式数据库已经逐渐取代单机数据库,成为应用的主流。但目前分布式数据库支持的业务主要以OLTP应用为主,缺少OLAP实现。提出了一种面向分布式数据库CBase的HTAP的实现方法,为CBase提供了一种OLAP分析的实现方式,可以轻松应对大数据量的数据分析。; 景苌弘刘文洁高锦涛裴欧亚; 关键词：分布式数据库 OLAP 数据分析

面向海量分布式关系数据库的游标构造方法: 本发明公开了一种面向海量分布式关系数据库的游标构造方法，用于解决现有OceanBase中SQL处理流程对于游标功能构造缺失的技术问题。技术方案是以SQL92标准语法为依据，基于海量分布式数据库的架构，设计了完整的游标构造...; 刘文洁周兴琼李战怀高锦涛邬娜杜彦荣李建强; 文献传递

面向海量分布式数据库的批量插入方法: 本发明公开了一种面向海量分布式数据库的批量插入方法，用于解决现有海量结构化数据存储管理系统OceanBase不支持批量插入功能的技术问题。技术方案是采用多批次循环插入策略以及插入阈值优化策略，首先根据插入条件获取需要插入...; 高锦涛刘文洁李战怀田征张利军裴欧亚杜彦容李建强周兴琼邬娜; 文献传递

基于标签序列和nGrams的半结构化数据分类方法: 本发明公开了一种基于标签序列和nGrams的半结构化数据分类方法，用于解决现有半结构化数据分类方法准确率差的技术问题。技术方案是将TSGrams特征作为表示半结构化数据的基本单元，用标签序列捕捉半结构化数据的结构信息，用...; 张利军李宁高锦涛

一种高效准确的基于查询结果的基数估计策略: 2018年; 基数估计是查询优化的重要组成部分,其高效性、准确性直接影响查询优化效果。传统基数估计策略基于原表或原表样本进行统计信息收集,然后利用收集好的统计信息推导出基数。该策略在数据量大时,统计信息收集效率低;统计信息存在延迟,并且基数通过推导得到,准确度无法保证;一些策略通过子查询的反馈信息得到基数,但结果没有保存,基数获取效率低。为解决这些问题,提出了一种高效准确的基于查询结果的基数估计策略(cardinality estimation based on query result,CEQR),特点是统计信息来源为查询执行结果,不需要进行推导,保证基数的准确度,并且收集效率与原表数据量无关;建立一种基数表,保存基本表和中间结果在某种谓词下的统计信息,为后续查询提供服务,并建立基数维护规则,合理管理基数表;建立资源感知策略,将基数项映射到缓存,加快统计信息获取效率。给出了基于CEQR策略的适应性以及误差分析,并通过实验得出CEQR策略在效率上优于传统基数估计策略。; 高锦涛李战怀刘文洁; 关键词：大数据查询优化查询结果

面向分布式数据库的相关子查询优化策略被引量：5: 2016年; 子查询是指查询语句作为另一个语句的查询条件出现,相关子查询是指子查询的查询条件依赖于父查询.相关子查询要对子查询反复求值,需要多次访问磁盘,尤其是在分布式的环境中还会产生大量的通信开销,导致执行效率低下.在对现有相关子查询优化策略分析研究的基础上,综合分布式的特点,将子查询展开、无用子树切除、聚集函数消除等策略应用于分布式关系数据库系统中,并在开源分布式关系数据库0ceanBase中应用这些策略实现对谓词EXISTS的相关子查询的优化.实验表明这些策略能够明显改善相关子查询的查询性能.; 毛思语张利军张小芳高锦涛李战怀; 关键词：分布式数据库

基于标签序列和nGrams的半结构化数据分类方法: 本发明公开了一种基于标签序列和nGrams的半结构化数据分类方法，用于解决现有半结构化数据分类方法准确率差的技术问题。技术方案是将TSGrams特征作为表示半结构化数据的基本单元，用标签序列捕捉半结构化数据的结构信息，用...; 张利军李宁高锦涛; 文献传递

分布式数据库下基于剪枝的并行合并连接策略被引量：4: 2019年; 排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无用数据块,这些数据块无需连接,但会增加额外开销,包括网络开销.随着数据量的增多,出现无用数据块的概率增大,额外开销随之增多.传统策略没有预先处理这些无用数据块.针对这个问题,提出一种分布式环境下基于剪枝的并行排序合并连接策略(parallel sort-merge join based on prune,简称Pr_PSMJ).其特点是,连接发生之前高效完成对连接对象无用数据块的剪枝处理,提高整体连接效率.基本思想是,根据连接对象对应的连接分区数据统计信息,构造一种双边邻接表(bilateral adjacency list,简称BAL),用来对连接数据中无用数据块进行剪枝,并保证最终连接结果的正确性;剪枝完成后,利用BAL计算出各个最佳本地连接执行点,并指导分区数据的迁移,使数据移动量最小;在连接阶段,由于BAL保证本地连接执行节点的独立性,因此能够轻松并行执行整个连接过程,并在每个连接点本地利用多核环境完成局部并行排序合并连接;最后,将局部结果合并成最终结果.由于Pr_PSMJ中的高效剪枝策略是在连接执行之前完成的,因此几乎适合任何合并连接操作,并且对于其他连接策略也有借鉴作用.给出了基于Pr_PSMJ的算法的正确性、效率性以及适应性分析,并且给出实验验证,证明了在分布式大数据量排序合并连接情况下,Pr_PSMJ相对于其他策略能够有效减少网络开销,并提高连接效率.; 高锦涛李战怀杜洪涛刘文洁; 关键词：分布式剪枝

一种面向分布式读写分离系统的数据同步策略被引量：11: 2020年; 读写分离是NewSQL数据库兼容传统关系型数据库以及NoSQL数据库各自优势的一种常用策略。这种架构下,基线数据被分割为多个分区分布存储于不同存储节点,更改数据存储于单个事务节点,为减轻事务节点压力以及提升查询效率,需要将更改数据定期同步到存储节点。当前策略以分区粒度进行数据同步,导致无更改数据的分区同样参与同步操作,消耗额外网络代价、本地IO代价、内存空间以及磁盘空间。为提升同步效率,降低空间消耗,提出一种细粒度数据同步策略,在原始分区之上建立细粒度逻辑分区,提供更精确的同步单位;引入更改感知策略,记录被更改的分区以及对应的更改数据;利用更改发布机制驱动同步的进行,限制参与同步的分区为发生改变的分区。在分布式读写分离系统Oceanbase上验证细粒度数据同步策略,结果表明其同步效率和空间占用量均优于其他策略。; 高锦涛刘文洁李战怀; 关键词：分布式数据库数据同步细粒度

高锦涛

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

高锦涛

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈