您的位置: 专家智库 > >

国家重点基础研究发展计划(2006CB303005)

作品数:7 被引量:50H指数:4
相关作者:李建中杨东华高宏韩希先王金宝更多>>
相关机构:哈尔滨工业大学更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划教育部“新世纪优秀人才支持计划”更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 2篇会议论文

领域

  • 9篇自动化与计算...

主题

  • 4篇查询
  • 4篇查询处理
  • 3篇海量
  • 3篇海量数据
  • 3篇TOP-K
  • 2篇数据库
  • 2篇索引
  • 2篇外存
  • 2篇缓存
  • 2篇缓存敏感
  • 2篇剪切
  • 2篇查询处理算法
  • 2篇磁盘
  • 1篇调度
  • 1篇信息增益
  • 1篇睡眠调度
  • 1篇频繁子图
  • 1篇子图
  • 1篇字符
  • 1篇字符串

机构

  • 9篇哈尔滨工业大...

作者

  • 7篇李建中
  • 5篇韩希先
  • 5篇杨东华
  • 4篇高宏
  • 2篇王金宝
  • 1篇刘勇
  • 1篇程思瑶
  • 1篇任倩倩

传媒

  • 5篇计算机学报
  • 2篇计算机研究与...

年份

  • 1篇2015
  • 1篇2012
  • 6篇2010
  • 1篇2009
7 条 记 录,以下是 1-9
排序方式:
RB树:一种支持空间近似关键字查询的外存索引被引量:9
2012年
空间近似关键字查询包含一个空间条件和一组关键字相似性条件,这种查询在空间数据库中返回同时满足以下条件的对象:1)对象的位置信息满足查询中的空间条件;2)对于查询中的任何一个关键字,对象中至少包含一个关键字与其相似度大于给定阈值.随着当前数据的爆炸性增长,空间数据库无法完整地存放在内存中,因此空间数据库需要支持空间近似关键字查询的外存索引.目前,还没有在外存中支持精确的空间近似关键字查询的索引结构.设计了一种新型的外存索引RB树,在外存中支持精确的空间近似关键字查询.RB树支持的空间近似关键字查询包括多种空间条件,如范围查询、NN查询,同时支持多种关键字相似性度量,包括编辑距离、规范化编辑距离等.通过真实数据中的性能测试验证了RB树的效率.
王金宝高宏李建中杨东华
关键词:空间数据库关键字查询处理索引外存
DBCC-Join:一种新的高速缓存敏感的磁盘连接算法
随着CPU和内存的性能差距越来越大,系统设计者在CPU寄存器和内存之间插入高速缓存来弥补这个差距.高速缓存的数据存取速度远高于内存,所以数据库操作要获得更好的性能就必须考虑充分利用高速缓存.基于磁盘的连接操作是一种常用并...
韩希先杨东华李建中
文献传递
TKEP:海量数据上一种有效的Top-K查询处理算法
在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的...
韩希先杨东华李建中
关键词:海量数据TOP-K
文献传递
海量数据上的近似连接聚集操作被引量:3
2010年
连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此提出了一种新的算法——(p,ε)-近似连接聚集查询(pε-AJA)来有效地返回满足任意置信区间的近似连接聚集结果.文章提出且预计算两个数据结构:连接随机样本(JRS)和连接位置索引对表(JPIPT).利用JRS,pε-AJA向用户返回近似结果的快速响应.如果利用JRS得到的近似结果没有满足给定的置信区间,pε-AJA利用JPIPT获得更多的随机连接元组.文中提出一种采样算法来获得JPIPT给定数量的样本,并且利用获得的JPIPT样本,该文提出的算法可通过对连接表的一遍顺序扫描获得连接元组.该文还提供了JPIPT和JRS有效的构建和维护算法.实验结果表明:pε-AJA可以获得相对于准确查询1~5个数量级的加速,并且可以有效地完成JPIPT和JRS的构建和维护操作.
韩希先杨东华李建中
关键词:海量数据
基于联合意义度量的Top-K图模式挖掘被引量:3
2010年
提出了一个新的研究问题:如何挖掘Top-K图模式,联合起来使某个意义度量最大化.利用信息论的概念,给出了两个具体问题的定义MES和MIGS,并证明它们是NP-难.提出了两个高效算法Greedy-TopK和Clus-ter-TopK.Greedy-TopK先产生频繁子图,然后按增量贪心方式选择K个图模式.Cluster-TopK先挖掘频繁子图的一个代表模式集合,然后从代表模式中按增量贪心方式选择K个图模式.当意义度量满足submodular性质时,Greedy-TopK能提供近似比保证.Cluster-TopK没有近似比保证,但比Greedy-TopK更高效.实验结果显示,在结果可用性方面,文中提出的Top-K挖掘优于传统的Top-K挖掘.Cluster-TopK比Greedy-TopK快至少一个数量级.而且,在质量和可用性方面,Cluster-TopK的挖掘结果非常类似于Greedy-TopK的挖掘结果.
刘勇高宏李建中
关键词:频繁子图联合熵信息增益
TKEP:海量数据上一种有效的Top-K查询处理算法被引量:18
2010年
在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比.
韩希先杨东华李建中
关键词:海量数据TOP-K
传感器网络中一种基于两阶段睡眠调度的目标跟踪协议被引量:9
2009年
移动目标跟踪是传感器网络的一个重要应用.网络中传感器节点协作发现目标并将对目标的感知信息反馈给用户.为了有效地减少网络能耗和提高跟踪质量,文中提出一种基于两阶段睡眠调度的目标跟踪协议.该协议将整个跟踪过程划分成两个阶段,根据各阶段对节点密度要求的不同,分别采用不同的睡眠调度机制.文中进一步对所提出协议进行优化,在保证跟踪质量的同时最小化系统能耗.最后用36个传感器结点验证了所提出协议的有效性.
任倩倩李建中高宏程思瑶
关键词:无线传感器网络目标跟踪睡眠调度网络覆盖网络划分
DBCC-Join:一种新的高速缓存敏感的磁盘连接算法被引量:6
2010年
随着CPU和内存的性能差距越来越大,系统设计者在CPU寄存器和内存之间插入高速缓存来弥补这个差距.高速缓存的数据存取速度远高于内存,所以数据库操作要获得更好的性能就必须考虑充分利用高速缓存.基于磁盘的连接操作是一种常用并且耗时的数据库查询操作,可是大多数传统的连接算法在设计时都没有考虑高速缓存的使用,从而使得这些连接算法无法充分利用CPU的能力.文中分析了传统的连接算法在高速缓存利用方面的问题,并且提出了一种新的可以充分利用高速缓存的磁盘连接算法DBCC-Join.连接位置索引对表JPIPT是用到的数据结构,说明了每个连接结果元组在各自表中的位置索引对.DBCC-Join的执行包括两个阶段:JPIPT构建阶段和结果输出阶段.JPIPT构建阶段对列存储化的连接属性执行高速缓存敏感的算法来构建连接位置索引对表.利用获得的JPIPT,结果输出阶段只需要对数据表执行一遍顺序扫描就可以获得结果.该文是第一篇提出利用高速缓存的磁盘连接算法的文章.实验表明,和传统磁盘连接算法相比,DBCC-Join算法可以获得一个数量级的加速比.
韩希先杨东华李建中
外存中高效的字符串相似性查询处理被引量:3
2015年
字符串相似性查询是众多应用的基础操作,如数据清洁、拼写校验、生物信息学和信息集成等.随着数据的爆炸性增长,大规模字符串数据日益普遍,现代的信息系统中也广泛使用字符串作为数据的表达形式.现有支持字符串相似性查询的方法大多是基于q-gram的内存倒排索引,在处理大规模字符串集合会消耗无法忍受的内存容量,甚至在数据量过大时造成内存容量不足而无法支持查询处理.现有的外存倒排索引Behm-Index在查询的过滤阶段只支持少数过滤器,不能有效地减少查询I/O代价.提出了LPA-Index:一种支持长度过滤器和位置过滤器的外存倒排索引,并通过选择查询时使用的倒排表来有效地降低查询I/O代价.实验结果表明,与现有性能最好的外存索引Behm-Index相比,LPA-Index能够大幅降低查询的I/O代价,获得了更短的查询响应时间.
王金宝高宏李建中杨东华
关键词:字符串相似性查询外存查询处理
共1页<1>
聚类工具0