国家教育部博士点基金(20120042110028) 作品数:19 被引量:135 H指数:7 相关作者: 于戈 宋杰 申德荣 鲍玉斌 寇月 更多>> 相关机构: 东北大学 沈阳建筑大学 国防科学技术大学 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 更多>>
异构网络中关联实体识别模型及增量式验证算法研究 被引量:6 2013年 利用关联实体识别技术可以对异构网络中主题相关的实体进行检测并整合,更好地帮助用户理解搜索目标.然而,目前关联实体识别技术考虑的因素较为单一、对识别结果缺乏验证而影响识别准确性.文中提出了一种两阶段的关联实体识别模型,充分考虑了实体的模式特征与属性特征.此外,提出了一种增量式验证算法,基于迭代对识别结果进行增量式的验证并修正,以保证结果的准确性.通过实验验证了文中所提出的关键技术的可行性和有效性. 寇月 申德荣 刘恒 王泰明 聂铁铮 于戈关键词:异构网络 迭代 共享的MapReduce环境下批量作业的调度算法研究 被引量:2 2013年 MapReduce作为当前最热门的并行数据处理系统之一,已经被广泛应用在生产、研究等多个领域中.任务调度策略作为MapReduce的核心技术之一,直接关系到系统的性能.但是,在多用户(部门)共享的MapReduce环境下处理批量作业时,已有的调度算法不能够保证系统良好的吞吐能力.针对此问题,一种在共享的MapReduce环境下的吞吐量驱动的任务调度算法(简称TD调度算法)被提出.首先结合共享的MapReduce环境下批量作业调度的特点,给出了调度框架,并根据处理过程中作业的参数变化,将作业归为4种状态并给出状态间的转换规则,避免了系统中资源浪费并保证了资源分配的公平性;其次,总结了在处理批量作业时提高吞吐量的主要手段,进而提出了TD调度算法,有效地降低了网络开销并显著的提高了系统的吞吐能力.最后通过大量的实验对TD调度算法的性能进行了验证.实验结果表明,TD调度算法能够有效地提高在共享的MapReduce环境下处理批量作业时系统的吞吐能力,符合实际应用的需求. 王习特 申德荣 聂铁铮 寇月 于戈关键词:共享环境 MAPREDUCE 任务调度 吞吐量 一种面向BSP系统的多等待队列作业调度算法 2014年 在以往的BSP(Bulk Synchronous Parallel)系统中,作业调度都是采用基于单队列的优先级调度策略.它的优点是实现简单,但作业队列维护开销大,低优先级作业存在无限等待的问题.论文提出了面向BSP系统基于多等待队列的按优先级作业调度算法,以高响应比优先级队列为作业组织方式,并加入了作业优先级的动态调整策略,避免了低优先级作业因长期得不到执行而废弃的情况.目前,论文所提算法已成功运行于BC-BSP系统中.文中通过实验进一步证明,融合了作业优先级调整策略的基于多等待队列的作业调度算法较传统的单队列优先级调度算法在队列维护方面,能降低30%~50%的维护代价.另外,在兼顾作业的初始优先级的同时,能够减少低优先级作业的等待时间,避免低优先级作业的无限等待问题. 杨宝星 赵志滨 鲍玉斌 于戈关键词:作业调度 响应比 一种改进的数据库Sharding方法 2017年 Sharding是用于开源数据库的一种水平扩展解决方案,包含两个主要步骤:逻辑划分和物理映射.对于前者,现有机制通常根据Shard Key采取基于Range或是Hash的方式来实现.然而,基于Range的方法不能够保证数据值域的均衡;基于Hash的方法不适用于范围查询,且当Shard Key不均匀时无法保证数据量的均衡.对于后者,现有机制通常采用一致性哈希来确保存储节点的动态扩展,然而该方法并未考虑数据增减导致Chunk大小变化时的数据均衡机制.为此,提出一种新的负载均衡的Sharding方法:一方面综合考虑上述两种划分方式的优缺点提出一种新的逻辑划分方法,另一方面给出一种Chunk大小变化而导致的不均衡处理机制.实验证明本文提出的方法能够有效保证数据的负载均衡. 李甜甜 于戈 王智 宋杰关键词:负载均衡 ERE:基于半结构化Web页面的实体关系抽取系统 被引量:2 2014年 传统的实体关系抽取方法主要针对语义信息较为完整的文本,基于抽取模式抽取文本中的实体关系,并采用启发式算法或者概率模型来选择抽取出的候选关系。而对于半结构化的页面,由于没有成句的实体信息展示,导致这些方法不能很好适用。论文提出的实体关系抽取系统能较好地处理半结构化的页面。该系统主要包括数据抽取规则学习、数据抽取、实体间关系计算等核心功能模块,并为用户提供了关系库查询接口。用户输入关键词和选定匹配类型,系统将根据关键词及匹配类型查询实体信息库,然后用满足条件的实体再去查询实体关系库,将包含这些实体的关系返回给用户。 余东 李诺 申德荣 汤楠 徐宏斌 寇月 于戈关键词:实体关系抽取 数据抽取 大数据分析的分布式MOLAP技术 被引量:34 2014年 大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能. 宋杰 郭朝鹏 王智 张一川 于戈 Jean-Marc PIERSON关键词:大数据 多维数据模型 OLAP MAPREDUCE 一种能效优化的MapReduce资源比模型 被引量:21 2015年 随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个"最佳资源比"使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的"生产者-消费者"模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高. 宋杰 刘雪冰 朱志良 李甜甜 赵大哲 于戈关键词:云计算 能效 MAPREDUCE 异构信息空间中实体关联关系挖掘算法CFRQ4A 被引量:7 2014年 丰富的实体关联关系是在异构信息空间中进行数据分析、数据挖掘、知识发现和语义查询等许多应用的前提条件和关键所在.然而不同于同构信息网络,由于异构信息空间中实体关联关系的复杂性、多样性和异构性使得实体关联关系挖掘并不是一件简单的任务,更具有挑战性.以作者文献网络为例,提出了一个通用的,由聚类、过滤、推理和量化4步骤组成的异构信息空间中基于聚类的实体关联关系挖掘算法CFRQ4A(clustering,filtering,reasoning and qualifying for associations).CFRQ4A算法不仅利用了异构实体自身的属性值,还利用了异构信息网络的结构(路径)信息;在挖掘过程中引入关联关系约束来保证关联关系的语义和逻辑正确性,并且针对实体关联关系的特点提出了关联强度量化模型.在真实数据集DBLP上的实验结果表明所提出算法是可行和有效的. 杨丹 申德荣 聂铁铮 于戈 寇月关键词:结构信息 MapReduce集群中最大收益问题的研究 被引量:8 2015年 MapReduce是目前最为流行的用于大数据分析的并行系统之一.许多企业已经搭建了自己的MapReduce集群,为广大用户提供计算服务.用户可以向集群提交具有完成时限要求的MapReduce作业,若作业被按时完成,则企业可以获得一定的收益.针对这种应用场景,该文首次提出了MapReduce集群中的最大收益问题.为有效地解决该问题,首先提出了一种基于序列的任务调度策略(简称为SEQ策略),并证明了在处理具有完成时限约束的作业时SEQ策略存在优势.基于SEQ策略,该文提出了最大收益的调度算法(Scheduling Algorithm for Maximum Benefit,简称AMB算法),该算法可以快速地确定可接收作业,并给出有效的执行方案,以达到最大化收益的目的.另外,针对在实际应用中的某些异常情况(如节点宕机),该文也设计了有效的超时处理策略,进一步增加了算法的实用性.最后,通过大量的实验验证了该文所提出算法的有效性. 王习特 申德荣 于戈 白梅 聂铁铮 寇月关键词:大数据 一种优化MapReduce系统能耗的数据布局算法 被引量:9 2015年 在云计算技术和大数据技术的推动下,IT资源的规模不断扩大,其能耗问题日益显著.研究表明:节点资源利用率不高、资源空闲导致的能源浪费,是目前大规模分布式系统的主要问题之一.研究了MapReduce系统的能耗优化.传统的基于软件技术的能耗优化方法多采用负载集中和节点开关算法,但由于MapReduce任务的特点,集群节点不仅要完成运算,还需要存储数据,因此,传统方法难以应用到MapReduce集群.提出了良好的数据布局可以优化集群能耗.基于此,首先定义了数据布局的能耗优化目标,并提出相应的数据布局算法;接着,从理论上证明该算法能够实现数据布局的能耗优化目标;最后,在异构集群中部署3种数据布局不同的MapReduce系统,通过对比三者在执行CPU密集型、I/O密集型和交互型这3种典型运算时的集群能耗,验证了所提出的数据布局算法的能耗优化效果.理论和实验结果均表明,所提出的布局算法能够有效地降低MapReduce集群的能耗.上述工作都将促进高能耗计算和大数据分析的应用. 宋杰 王智 李甜甜 于戈关键词:能耗优化 MAPREDUCE 大数据