辽宁省自然科学基金(200102059) 作品数:9 被引量:119 H指数:6 相关作者: 宋杰 朱志良 李甜甜 侯泓颖 闫振兴 更多>> 相关机构: 东北大学 更多>> 发文基金: 辽宁省自然科学基金 国家自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于MapReduce的连接聚集查询算法研究 被引量:7 2013年 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有连接算法的基础上总结出4种基于MapReduce的连接聚集查询算法;接着根据应用场景的不同又提出另外两种实现算法;同时提出I/O代价是决定基于MapReduce的连接聚集查询算法性能的主要因素;最后通过大量实验分析这6种算法在不同查询应用下的优劣,总结了它们各自的适用场景,并分析了各个算法的性能与数据特征之间的关系. 陈勇旭 陈梦杰 刘雪冰 宋杰关键词:海量数据 MAPREDUCE HaoLap:基于Hadoop的海量数据OLAP系统 被引量:5 2013年 近年来,随着计算机技术的发展及其在互联网、传感器和科学数据分析等领域的广泛应用,数据量爆炸性地增长,海量数据给传统的数据管理和分析带来新的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.介绍了HaoLap(Hadoop based OLAP),一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的海量数据OLAP系统.本研究吸取了MOLAP的经验:采用元数据存储多维模型以及HDFS存储事实数据,采用编码完成维和事实数据的映射,采用MapReduce完成OLAP运算.描述了HaoLap的关键技术,包括系统结构、维定义和编码、事实数据存储和编码、OLAP算法和服务接口.介绍了HaoLap在科学数据分析的应用案例,并与主流非关系数据管理系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但HaoLap的OLAP性能要优于HBase,Hive,HadoopDB等主流非关系数据管理系统. 郭朝鹏 王智 韩峰 张一川 宋杰关键词:多维数据模型 OLAP 海量数据 HDFS MAPREDUCE MQM:一种用于Web服务查找的多维QoS模型 2012年 随着Web的发展,可供选择的功能相同或相似的Web服务越来越多,因此有必要为用户提供一种高效的基于服务质量(QoS)的Web服务查询机制.然而现有的Web服务QoS管理模型并不能很好的支持如动态查询等查询需求,其查询性能也有待提高.鉴于此,本文提出一种新的Web服务管理模型——多维QoS模型(MQM:Multi-dimensional QoS Model),并介绍了该模型的创建方法和相关算法.MQM通过多维模型来管理QoS数据,提供查询和OLAP操作.实验证明MQM能够使用户能更准确和快速的按QoS查询现有服务,很好地解决了传统查询方法无法确定查询条件、无法动态改变查询区间、查询性能不高等问题,进而改善了用户体验. 宋杰 侯泓颖 张娇 刘国奇 朱志良关键词:WEB服务管理 OLAP 数据密集型计算中负载均衡的数据布局方法 被引量:6 2013年 广泛用于数据密集型计算的MapReduce模型将计算部署到数据端并行执行,数据布局将不再只影响存储本身,还影响计算效率;节点上存储数据的特征决定该节点上任务的执行效率,负载均衡从传统的服务器管理或任务调度研究转变成为以提高并行性为目的的数据布局研究,为此,分析了数据密集型计算和MapReduce环境中数据布局的特点,提出了负载均衡的数据布局目标,并提出在特定环境下实现负载均衡的数据布局方法,最后通过实验证明了数据布局目标和数据布局方法的有效性.理论和实验结果证明,新提出的布局方法能有效地提高MapReduce应用的并行性,优化其执行效率. 宋杰 李甜甜 闫振兴 朱志良关键词:数据密集型计算 负载均衡 云计算 OSF:一种支持SaaS应用的构件框架 被引量:1 2012年 离线SaaS应用可以工作在时断时续的网络连接环境下,是一种环境可感知的智能SaaS软件。目前支持离线访问Web应用的研究成果较少,且其没有考虑到SaaS的特性,更没有形成构件化框架。为了解决上述问题,提出了离线SaaS框架OSF(Offline SaaS Framework),并给出了支持离线访问的面向操作的构件框架的结构和运行机制。通过案例描述验证了该构件框架的功能和性能。理论和实验表明,离线SaaS应用框架极大地改善了用户体验,保证了SaaS服务的可用性,扩大了SaaS的应用范围,同时还提高了系统开发效率。 宋杰 侯泓颖 朱志良关键词:SAAS 离线应用 云数据管理系统能耗基准测试与分析 被引量:25 2013年 云数据管理系统是一种新兴的数据管理系统.为了研究云数据管理系统的能耗优化,实现"绿色计算",首先要定义能耗的度量模型和基准测试方法,分析系统的能耗特点.目前云数据管理系统的基准测试主要集中在性能方面,对能耗方面的评估和优化工作很少;对测量仪器、测试手段、测试用例以及能耗基本规律的研究存在空白.文中提出了一种能耗的度量模型和数学表达;定义了一组数据装载、查询和分析用例来测试云数据管理系统的能耗;设计了系统能耗的测量方法;分析了若干云数据管理系统在执行数据装载、读取、查询、聚集和连接等操作时的能耗特征,提出了通过降低"等待能耗"而进行云数据管理系统的能耗优化.大量实验数据证明,尽管云计算被认为是一种绿色计算,但文中测试的云数据管理系统在能耗方面差异较大,需要对部分系统进行进一步的优化. 宋杰 李甜甜 朱志良 鲍玉斌 于戈关键词:能耗 MAPREDUCE 大数据 云计算 量子人工鱼群算法 被引量:6 2012年 融合量子计算与智能优化的新型高效优化算法层出不穷,成为现在优化算法研究的主流.为此,将量子计算引入到人工鱼群算法中,提出一种新型的量子进化算法———量子人工鱼群算法.该算法用量子计算的方法重新描述了人工鱼的行为,用量子比特对人工鱼进行编码,用量子旋转门实现人工鱼的更新操作,用量子非门进行人工鱼变异,从而实现了目标的优化求解.并分别以函数极值和TSP问题为例进行了仿真,验证了算法的有效性. 陈晓峰 宋杰关键词:量子计算 人工鱼群算法 函数极值 TSP问题 云计算环境下改进的能效度量模型 被引量:9 2013年 针对大规模计算的能效问题,提出改进的能效度量模型,通过"能源"和"效率"2种度量来综合评价系统能效.在"能源"方面,考虑计算机、网络和附属设备的能耗;在"效率"方面,考虑CPU、内存、磁盘以及网络的情况.提出的能效度量模型描述了改进后的能效度量的定义和数学表达,通过实验验证了该模型的合理性.基于该度量模型,评估并分析了MapReduce环境中CPU密集型、I/O密集型和交互型计算的能效,总结了MapReduce环境中的能效规律. 宋杰 侯泓颖 王智 朱志良关键词:云计算 能效 MAPREDUCE 一种云计算环境下的能效模型和度量方法 被引量:70 2012年 提出一种云计算环境下的能效模型和度量方法.首先定义了能效的数学表达及其测量和计算方法,并推导出了能效最大值的发生条件;其次,为方便能效计算,改进了计算机功率和CPU工作状态之间关系的数学表达,通过CPU使用率和频率来计算能效,从而简化了能效测量方法.此外,还设计并实施了大量实验,验证了提出的能效模型的正确性;同时对单机环境,云计算环境中CPU密集型、I/O密集型和交互型运算进行能效评估,总结其能效规律和优化办法.理论和实验证明,所提出的能效模型和计算方法能够准确地评估云系统的能效,并为能效优化奠定基础. 宋杰 李甜甜 闫振兴 那俊 朱志良关键词:云计算 节能