臧冬松
- 作品数:6 被引量:15H指数:2
- 供职机构:中国科学院高能物理研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 高能物理海量数据迁移系统的设计与实现
- 高能物理计算是典型的数据密集型计算应用。以BESIII实验为例,所有原始、模拟及重建的数据总和将达到4PB。为了保证数据的快速读写,如此大量的数据需要分级存储于磁盘和磁带库中,因此高效地迁移磁带库与磁盘之间的海量数据非常...
- 石京燕臧冬松程耀东
- 关键词:数据密集型计算海量数据数据迁移
- 文献传递
- CMS实验元数据发现的数据聚集系统
- 2014年
- 在大型强子对撞机上的紧凑繆子螺线管探测器实验,具有数据量大(PB级规模)、数据类型复杂与数据地理上全球分布的特点。记录上述数据的元数据达到TB级的规模,并且以不同的格式保存在不同的关系和非关系数据源中,通过在这些异构数据源上添加一个缓存层的方法,实现一个提供精确的关键词查询的数据聚集系统。根据多重映射和聚集的方式支持用户的查询,并利用有效的缓存管理策略来提升查询的命中率。实验结果表明,该系统能够通过缓存的方式响应超过70%的用户查询,具有良好的查询性能。
- 梁栋臧冬松霍菁孙功星Valentin Kuznetsov
- 关键词:关键词查询数据聚集缓存管理异构数据源
- 基于MapReduce的高能物理数据分析系统被引量:9
- 2014年
- 将MapReduce思想引入到高能物理数据分析中,提出一个基于Hadoop框架的高能物理数据分析系统。通过建立事例的TAG信息数据库,将需要进一步分析的事例数减少2-3个数量级,从而减轻I/O压力,提高分析作业的效率。利用基于TAG信息的事例预筛选模型以及事例分析的MapReduce模型,设计适用于ROOT框架的数据拆分、事例读取、结果合并等MapReduce类库。在北京正负电子对撞机实验上进行系统实现后,将其应用于一个8节点实验集群上进行测试,结果表明,该系统可使4×10-6个事例的分析时间缩短23%,当增加节点个数时,每秒钟能够并发分析的事例数与集群的节点数基本呈正比,说明事例分析集群具有良好的扩展性。
- 臧冬松霍菁梁栋孙功星
- 关键词:高能物理MAPREDUCE模型集群分布式计算
- 分布式文件元数据管理系统设计被引量:2
- 2012年
- 简述了分布式文件元数据管理系统的应用环境和设计目标。目标系统设定应用于高能物理数据分析,关联Torque作业批处理系统;在这些条件的限制下,详细分析了各种限制因素,并以此为基础给出了目标系统的总体结构及模块化设计。详细阐述了目标系统的数据库设计、访问接口设计以及数据同步要点,给出了设计思路,并结合目标系统的记录新增操作、查询操作的测试性能,讨论了进一步的工作。
- 徐永士臧冬松孙功星
- 关键词:分布式TORQUE
- CMS实验中关系数据库的精确关键词查询被引量:1
- 2014年
- 在大型强子对撞机(LHC)上紧凑型缪子螺线管探测器(CMS)实验的复杂数据环境下,有多个关系型数据源记录了关于数据组织和分布的信息。为实现数据查询系统的精确关键词查询功能,通过分析数据库模式图的方法,将关键词查询语言动态翻译成SQL语言,设计并实现一个跨数据库平台的关键词查询系统。针对动态翻译过程中存在的二义性问题,提出基于查询实体的模式图分析算法,以及基于最小权重树查找的动态连接算法。实验结果表明,该动态连接算法能为关键词查询正确生成所需数据库表的连接方式,使关键词查询系统具有较高的查询效率,以满足用户实时、精确查询的需求。
- 梁栋臧冬松孙功星Valentin Kuznetsov
- 关键词:关键词查询查询语言关系数据库结构化查询语言
- 一种大规模分布式应用性能分析系统被引量:3
- 2012年
- 在网格和云计算环境下,由于平台和网络环境的复杂性,使得对大规模分布式应用的有效监控和性能分析变得非常困难。为此,提出一种基于数据流管理的大规模分布式应用性能分析系统,利用消息队列收集、缓冲和分发追踪消息,使用分布式实时处理框架分析和追踪消息。将该系统部署到一个Petabyte级别的分布式数据管理系统中,通过事例演示追踪消息的重要性。应用结果表明,该系统能够满足大规模分布式应用环境下大数据量处理能力和实时性的要求,为监控并分析系统性能、预测用户行为等提供了较好的平台支持。
- 臧冬松Vincent Garonne孙功星
- 关键词:分布式应用数据流管理消息队列NOSQL数据库