您的位置: 专家智库 > >

国家自然科学基金(61070054)

作品数:5 被引量:40H指数:2
相关作者:王珊张孝王占伟张延松周烜更多>>
相关机构:中国人民大学西门子中国研究院上海市智能信息处理重点实验室更多>>
发文基金:国家自然科学基金国家科技重大专项中央高校基本科研业务费专项资金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 2篇数据管理
  • 2篇索引
  • 2篇结构化数据
  • 2篇非结构化
  • 2篇非结构化数据
  • 2篇非结构化数据...
  • 2篇分布式
  • 1篇多媒体
  • 1篇多维索引
  • 1篇星型
  • 1篇星型模型
  • 1篇数据库
  • 1篇数据索引
  • 1篇评测
  • 1篇评测系统
  • 1篇自适
  • 1篇自适应
  • 1篇自适应算法
  • 1篇内存
  • 1篇内存数据

机构

  • 5篇中国人民大学
  • 1篇西门子中国研...
  • 1篇上海市智能信...

作者

  • 4篇王珊
  • 3篇张孝
  • 2篇张延松
  • 2篇王占伟
  • 1篇孙妍
  • 1篇周宁南
  • 1篇琚星星
  • 1篇周新
  • 1篇孙新云
  • 1篇焦敏
  • 1篇周烜
  • 1篇刘辰
  • 1篇宋少华
  • 1篇刘科研

传媒

  • 3篇计算机研究与...
  • 1篇计算机学报
  • 1篇科研信息化技...

年份

  • 2篇2013
  • 3篇2011
5 条 记 录,以下是 1-5
排序方式:
myBUD中多媒体数据索引CFTree的研究和实现
2011年
图片、音频、视频、网页等非结构化数据的高速增长使得如何高效管理它们成为一大挑战.提出的多媒体数据索引CFTree*是非结构化数据管理系统平台myBUD中对多媒体数据进行管理的具体研究和实现.CFTree*是基于簇特征树的层次树索引结构,可用于基于内容的近似kNN查询.实验表明,基于CFTree*索引结构的近似kNN查询性能比基于顺序扫描的kNN查询有60%左右的提高.与精确kNN相比,基于CFTree*索引的近似kNN查询结果与查询对象的平均相似度略低于精确kNN结果,但结果的多样性则优于精确kNN结果.
张孝孙新云刘科研琚星星王珊
关键词:非结构化数据管理聚类算法
CloudIndexEval:面向云平台上多维索引的评测系统
2013年
大数据管理给分布式多维索引技术带来新的挑战,很多研究者提出基于云平台的分布式多维索引架构以提高大数据的查询效率.为了在同一种云平台下全面的评测各种不同的多维索引方法,提出并实现了一个多维索引评测系统———CloudIndexEval.CloudIndexEval不仅支持现有的几种基于云平台的多维索引,并且能够被扩展到新的多维索引方法上.该系统生成统一的测试用例,评测索引性能的基本指标和影响索引性能的因子,并图形化地展示评测结果.
周新王延昊刘辰宋少华张孝王珊
关键词:分布式多维索引
非结构化数据存储管理研究被引量:8
2013年
非结构化数据通常指相对于关系数据而言没有固定的显式结构的数据,比如视频、音频、图像、文档等非结构化数据。根据权威数据咨询机构或研究机构的预测报告显示,近5~10年的数据量将呈指数级增长,而其中的非结构化数据占到当前数字信息总量的70%~85%。面对如此庞大的数据量和信息量,如何有效管理非结构化数据、获得有价值的信息或知识显得迫在眉睫。(非结构化)数据管理可以简单化为3个目标,即:实现数据的“存得下、管得了、用的上”。本文将主要围绕前两个基本目标介绍目前的非结构化数据存储管理的研究情况。同时介绍中国人民大学非结构数据管理(UnstructuredDataManagement,UDM)研究小组基于“自由表”数据模型和BUD(BankofUnstructuredData)参考体系模型在这一个问题上所作的初步研究与探索工作,以及在原型平台myBUD中的若干存储管理技术。
张孝周宁南
关键词:非结构化数据管理自适应算法分布式存储系统
海量数据分析的One-size-fits-all OLAP技术被引量:31
2011年
传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的性能和并行处理效率的问题.以星型模型上复杂多表连接为基础的OLAP算法的复杂度和并行处理过程中的数据网络传输代价都成为制约性能的重要因素.通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术.通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性.提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价.实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率.
张延松焦敏王占伟王珊周烜
关键词:OLAP星型模型
内存数据库可控的page-color优化技术研究被引量:1
2011年
page-color的研究集中在如何通过有效的cache分区技术隔离弱局部性数据与强局部性数据的访问冲突,减少数据处理过程中由弱局部性数据产生的cache污染对强局部性数据的影响.但这些优化技术依赖于特殊的处理器硬件设计、操作系统内核功能的扩展或同时依赖于硬件的特殊设计和操作系统扩展功能的支持.提出了应用软件层上基于page-color的W-order扫描优化技术,不依赖特殊的处理器硬件设计,最小化依赖操作系统的扩展功能.研究的核心思想是通过page-color控制弱局部性数据的页面地址访问顺序,将弱局部性数据与强局部性数据在cache中的冲突域由整个地址空间缩小为指定page-color的地址空间内,从而降低整体的cachemiss,降低数据处理时的延迟.与典型的page-coloring技术相比,不需要扩展操作系统内核功能,具有更好的内存地址空间利用率,能够实现查询内数据集粒度上的cache分区优化.实验中模拟了内存数据库中典型的多表连接算法,通过模拟cache行为模式和在实际查询处理时使用cache监测工具验证了W-order区优化技术的可行性与cache性能.实验结果表明,通过在应用软件层次上对顺序访问操作的控制,能够有效地降低cachemiss,提高内存数据库查询处理性能.
张延松王占伟孙妍王珊
关键词:内存数据库
共1页<1>
聚类工具0