国家高技术研究发展计划(2013AA01A213) 作品数:28 被引量:135 H指数:6 相关作者: 王意洁 裴晓强 许方亮 邢建春 杨启亮 更多>> 相关机构: 国防科学技术大学 南京大学 解放军理工大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
僵尸网络对电信运营商的危害与防治 2016年 僵尸网络技术的持续不断更新对运营商网络安全构成了极大的威胁;针对僵尸网络,分析研究了其技术原理与发展趋势,指出了对运营商网络的安全威胁和防治中易存在的误区;进一步研究了检测僵尸网络的关键技术,提出了一种综合的防治解决方案,可有效降低僵尸网络带来的危害。 唐伟文 曾金全 鲁华伟关键词:网络安全 僵尸网络 恶意代码 NTar:基于网络拓扑的纠删码树型修复方法 被引量:3 2013年 大规模分布式容错存储系统采用纠删码作为数据冗余技术能够比多副本技术以更低的额外存储空间开销获得相同的数据可靠性.然而,基于纠删码的数据冗余技术在修复一个失效编码块时需要从其他节点下载多个编码块,不仅占用了大量网络资源,也严重降低了修复速度.现有的修复方法都没有考虑网络拓扑的影响.为此,提出并实现了一种基于网络拓扑的纠删码树型修复方法 NTar.NTar依据网络拓扑将参与修复的节点组织成网络距离最小的树型结构,缩短修复期间数据的传输距离,从而减少占用的网络资源并缩短修复时间.此外,提出了节点选择算法Optree.Optree可快速地从所有可用节点中选出最优的参与修复的节点组合,并同时生成最优的树型修复结构.实验结果表明,相比于传统的星型修复,NTar可将修复占用的网络资源降低30%~45%,修复时间减少50%~70%. 许方亮 王意洁 裴晓强关键词:分布式存储系统 网络拓扑 纠删码 数据修复 最小生成树 数据中心网络高效数据汇聚传输算法 被引量:8 2016年 在数据中心中,类MapReduce的分布式计算系统在数据的混洗阶段产生巨大流量,令数据中心的东西向网络资源成为瓶颈.将这些高度相关的数据流在接收端进行聚合是分布式计算的通用处理方式,为了降低网络通信量并有效利用带宽,文中采用网内关联性流量的汇聚传输策略,将混洗和汇聚并行化,达到进一步降低东西向网络资源消耗、缩短混洗阶段延迟的目的.目前提出的IRS-based算法在适用场景上有一定局限性,为了解决这一问题,文中首先在以服务器为中心的代表结构BCube上建立incast最小树模型,分别提出MIB-based算法和MC-based算法,仅根据已知拓扑结构和发送节点编号即可快速生成一棵近似的最小代价incast树.MIB-based算法针对发送节点强关联的情况,使高层发送节点尽可能汇聚到已有的低层发送节点构建incast树;MC-based算法针对发送节点松散关联的情况,将节点进行最大程度上的聚合,通过增加最少的汇聚点完成incast树的构建.随后将上述两种算法结合起来进一步提出适用于各种场景的M2-based算法,通过推算时间复杂度证明该算法能够满足在线构建incast树的需求.最后,详细分析了M2-based算法对其他数据中心网络结构的适应性以及网内汇聚传输能够减少作业完成时间的原理.小规模实验结果表明,在不同网络规模下,M2-based比IRS-based节省了网络中约3%的数据量,整个作业在混洗和Reduce阶段的等待时间比不采用网内汇聚缩短约2/3;在不同传输节点规模下,M2-based比IRS-based节省了网络中约19%的数据量,整个作业在混洗和Reduce阶段的等待时间比不采用网内汇聚缩短约3/4. 陆菲菲 郭得科 方兴 谢向辉 罗兴国关键词:数据中心 数据汇聚 一种通用可扩展的在线警报关联方法 2015年 大规模网络环境下,多样化网络攻击类型产生的高速警报数据流,对警报关联方法的通用性、实时性以及系统开销控制提出了很高的要求.目前警报关联技术相关研究多是基于集中式结构的算法设计,难以满足实时性的要求;而已有少数分布式警报关联系统未深入考虑负载均衡和系统开销控制.为此,提出了一种通用可扩展的在线警报关联方法CACDS(causal alert correlation on distributed system).CACDS在分布式流处理环境中采用"分派-汇聚"机制作为在线警报关联的基本框架.基于该框架,CACDS采用因果逻辑方法进行关联分析,松弛匹配警报之间的前因后果,能够对各种不同攻击类型进行有效检测.为了充分利用分布式环境下各节点资源,提出一种混合式关联图划分技术,以不同警报类型引起的计算开销和系统开销为依据,警报被映射至不同的关联进程中以实现并行警报关联,保证了系统实时性和低开销.基于Storm平台的原型系统实验表明,与其他方法相比,CACDS具有更好的可扩展性、更高的吞吐率和更低的系统开销. 程力 王意洁 马行空关键词:警报关联 可扩展性 POP:一个基于微服务架构的在线编程系统 被引量:3 2017年 随着云计算的发展,基于云端的编程模式越来越受到开发者的青睐。在线编程系统与PaaS平台相结合,可以大大简化应用开发过程,为开发者提供便利。Docker的出现推动了PaaS平台的迅猛发展,Docker的种种特性给予了在线IDE更加理想的开发部署应用的环境。POP(Public Online Programming)是一种利用Docker技术实现的基于微服务架构的公共在线编程系统。POP通过对Docker资源的合理调度管理,使得在线编程系统在部署、调试和运行各类应用时能够更加节省资源和时间。 胡星 王泽瑞 李烁 杨楠 张知凡 王巧 王千祥关键词:云计算 DOCKER GRC:一种适用于多节点失效的高容错低修复成本纠删码 被引量:6 2014年 作为云计算重要基础的大规模分布式容错存储系统,采用纠删码作为数据冗余技术能比多副本技术以更低的存储开销获得相同的数据可靠性.然而,过高的修复成本使纠删码技术在实际中的应用受到限制.已有的改进工作虽然可以降低成本,但在多节点失效修复的成本过高.提出一种适用于多节点失效的高容错低修复成本纠删码——分组修复码(group repairable codes,GRC).GRC码通过将条带分组并增加组编码块,显著减少了修复所要传输的数据量,从而节省了宝贵的网络带宽和磁盘I/O资源;GRC码通过多个组编码块在多节点失效时降低修复成本,且维持较好容错能力.根据GRC码的特征,提出基于贪心策略的解码算法(greedy strategy based decode algorithm,GSBD),GSBD通过保证每个失效块的修复成本最小以优化修复过程.实验结果显示,与RS码相比,GRC码将修复网络带宽和磁盘I/O分别降低50%~55%,修复速度提高75%~90%,仅需增加21%存储空间;与LRC码相比,GRC码将修复网络带宽和磁盘I/O分别降低35%~45%,修复速度提高40%~50%,仅需增加13%存储空间;与basic pyramid code(BPC)相比,GRC码将修复网络带宽和磁盘I/O降低15%~25%,修复速度提高20%~25%,仅需增加6%存储空间. 林轩 王意洁 裴晓强 许方亮 符永铨关键词:分布式存储系统 纠删码 数据修复 视频云存储服务场景下的HDFS负载均衡工具 2017年 在线视频服务是互联网服务的重要内容,存储是在线视频服务提供的基础.HDFS作为面向通用文件的云存储系统,被很多视频服务网站采用,但其负载均衡工具没有考虑利用视频文件在线播放时的带宽消耗特性使集群的带宽资源得到更充分的利用.为解决这一问题,提出视频存储场景下的负载均衡方法 VOBM,它对视频文件在线播放时的带宽消耗与视频文件的码率、数据块大小和访问热度的关系进行了分析并建立了新的负载评估模型,在此基础上它在负载方案生成和负载调度两个环节中加入了对带宽消耗因素的考虑.在HDFS原有负载均衡工具的基础上实现了该方法,实验证明该方法能够有效避免高带宽消耗数据块的聚集,在高带宽消耗视频文件作为服务访问热点的实验场景中,该方法在90%的场景中优于原有负载均衡方法,最高能使数据节点集群中瓶颈节点的带宽峰值降低20%. 黄晓成 尹建伟关键词:负载均衡 HDFS 带宽 大数据时代的图搜索技术 被引量:3 2013年 众所周知,互联网及其应用升级推动数据量几何级数的增长,促使我们进入"大数据"时代。图数据是一类重要的大数据,与关系表格和XML等数据结构相比,图具有更强的表达能力,可以表示相对复杂的结构,所以被广泛地应用于各个领域。图的应用促使图搜索技术——"大数据"时代一种新的搜索模式的产生,并已引起业界越来越多的关注。文章介绍图搜索应用及其相关技术,揭示在"大数据"时代图搜索的重要意义及其面临的问题与挑战。 马帅 李佳 刘旭东 怀进鹏关键词:大数据时代 图搜索 社会计算 天玑大数据引擎及其应用 2014年 大数据计算面对的是传统IT技术无法处理的数据量超大规模、服务请求高吞吐量和数据类型异质多样的挑战。得益于国内外各大互联网公司的实际应用和开源代码贡献,Apache Hadoop软件已成为PB量级大数据处理的成熟技术和事实标准,并且围绕不同类型大数据处理需求的软件生态环境已经建立起来。文章介绍了大数据计算系统中存储、索引和压缩解压缩的硬件加速三项研究工作,即RCFile、CCIndex和SwiftFS,有效解决了大数据计算系统的存储空间问题和查询性能等问题。这些研究成果已形成关键技术并集成在天玑大数据引擎软件栈中,直接支持了淘宝和腾讯公司的多个生产性应用。 查礼 程学旗关键词:数据存储 聚簇索引 基于应用特征的PaaS弹性资源管理机制 被引量:13 2016年 如何在保障服务质量的前提下,尽可能地节省服务器资源,是云计算环境中弹性资源管理面临的主要问题之一.目前关于云计算环境中弹性机制的研究多数集中在IaaS层,且较少考虑不同应用的具体特征.文中提出了一种基于应用特征的PaaS弹性资源管理机制AFERM(Application Feature based Elastic Resource Management mechanism),主要贡献包括:(1)定义了包含资源开销信息与请求率变化信息的应用特征;(2)设计了一种基于应用执行单元的请求分配机制,在请求数量较大时,将它们划分给多个资源开销相对固定的应用执行单元分别处理;(3)基于应用特征将不同类型的应用搭配部署.作者在自主开发的PaaS平台PAE(Peking university Application Engine)上验证了该机制的可行性和有效性.实验证明,AFERM能够在保证服务质量的前提下,有效地减少服务器的使用:与对比策略相比,AFERM平均可以减少28.3%的虚拟机占用,最多可以减少50%. 魏豪 周抒睿 张锐 杨挺 王千祥关键词:云计算 PAAS