国家高技术研究发展计划(2009AA011704) 作品数:8 被引量:14 H指数:2 相关作者: 陈书明 谷会涛 刘胜 陈胜刚 陈小文 更多>> 相关机构: 国防科学技术大学 瑞典皇家理工学院 河南信息工程学校 更多>> 发文基金: 国家高技术研究发展计划 国家科技重大专项 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
片上网络延时差异对存储系统公平性的影响及对策 被引量:2 2011年 研究了在基于片上网络(Network on Chip,NoC)结构的单芯片多处理器(Chip Multiple Processors,CMPs)中,访存请求的NoC延时差异对存储系统的公平性带来的影响.针对该问题进行了理论分析、抽象,并构建试验模型,从网络规模、报文比例等4个方面对造成访存请求的NoC延时差异的原因进行了讨论.最后提出了一种基于片上网络延时的存储器访问调度方法(Scheduling Based on NoC Latency,SBNL),与传统的方法相比,能够将NoC延时差异对访存请求公平性的影响降低20%左右,并带来15.7%的执行效率提升. 刘胜 陈书明 尹亚明 陈胜刚 谷会涛 陈小文 王耀华关键词:片上网络 调度 多搜索中心的运动估计快速算法 被引量:4 2011年 块大小可变的运动估计方法能提高视频编码性能,但也增加了计算时间.为了加快运动估计计算,本文提出了一种基于多搜索中心预测和搜索范围动态调整的快速算法.多搜索中心预测方法对当前宏块时间和空间上相邻块的运动向量进行分析,得出多个预测向量作为运动估计的搜索中心.相比传统预测方法,多搜索中心预测最高可提高约14.6%的预测精度.依据预测运动向量的数目和大小,本文算法对搜索范围进行动态调整,进一步降低了计算复杂度.实验结果显示,相比H.264参考软件中的快速全搜索算法,UMHS算法和EPZS算法,本文算法分别节省约96.22%,59.50%和39.06%的计算时间,且具有相近的率失真性能. 谷会涛 陈书明 孙书为 陈胜刚关键词:快速运动估计 H.264/AVC 具有高效混洗模式存储器的可编程混洗单元 被引量:2 2011年 为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率。采用区分不同混洗粒度和元素索引等方法对混洗模式所对应的开关矩阵进行了压缩,我们的存储效率高于当前其他方案。该混洗单元具有可编程的特点,应用程序所需要的混洗模式可以提前由程序员编写并通过DMA等途径加载。对该混洗单元进行了VLSI实现及性能评测,结果显示此方案能够在给系统带来0.6%的额外面积开销基础上使应用程序的性能提升7.4%~17.4%。 万江华 刘胜 周锋 王耀华 陈书明一种低功耗低偏斜的无缓冲谐振时钟分布网络设计 被引量:2 2013年 作为下一代时钟分布技术的有力竞争者,谐振时钟机制具有低功耗、低偏斜的显著优势,但设计方法的缺乏导致该技术在同步数字系统中的应用受到严重制约。为解决这一问题,提出了一种面向无缓冲谐振时钟分布技术的物理设计方法,能够结合现有设计流程,有效实现谐振时钟网络设计。该方法基于SPICE分析并优化与谐振时钟网络相关的设计参数,保证整个物理设计快速收敛于目标频率。通过一块乘法器电路验证了该设计方法,带有寄生参数网表的SPICE结果显示,与采用树型和网格型时钟分布网络的同步电路相比,基于无缓冲谐振时钟网络的同步电路时钟系统功耗降低最高可达64%,总功耗降低16%以上。此外,无缓冲时钟网络的时钟偏斜小于时钟周期的2%。 徐毅 陈书明 刘祥远关键词:设计方法学 低功耗 PCI Express技术在嵌入式MPSoC中的应用 2013年 PCI Express作为第三代高性能I/O互连技术具有很多技术优势,如基于报文交换、点对点连接、LVDS高速串行互连、高带宽等。但是,PCI Express技术更多地应用于通用高性能计算机领域,鲜有将其应用于嵌入式系统设计中的实例。本文基于自行研制的一款嵌入式多核SoC系统YHFT-QDSP,根据系统设计需求,结合PCI Express技术特点,采用基于IP裁剪的快速设计方法将PCI Express技术应用于系统片间互连模块的设计中,缩短了设计周期并获得了良好的设计效果。采用0.13μm工艺单元库实现,PCI Express片间互连模块总面积为0.65mm2,其中协议转换模块面积为0.12mm2,片间数据传输有效带宽可达1.63Gb/s。 尹亚明 刘秋丽 陈书明关键词:PCI EXPRESS 嵌入式系统 一种基于核心数据区监视的交叉验证方法 2011年 通常商用体系结构模拟器不开源,仿真过程中无法直接获取中间结果。提出了一种基于核心数据区监视的交叉验证方法,可将体系结构模拟器运行过程中核心数据区的变化情况提取出来,用以支持该模拟器与寄存器传输级代码的模拟结果进行交叉比对,快速精确定位两者的执行差异,提高验证人员的查错效率。实验分析和实际应用表明,本方法比传统方法可将查错效率提高一个数量级以上。 刘胜 杨焕荣 陈书明 李勇 侯申关键词:查错 多核处理器中混合分布式共享存储空间的实时划分技术 被引量:3 2012年 在多核处理器芯片中,分布式共享存储DSM虽然提供了统一的全局寻址的存储空间,但却引入了虚地址向实地址转换的开销,这对性能产生了负面的影响。我们注意到,在并行程序的执行过程中,被处理的数据属性(私有或共享)并不是一成不变的。并行程序中不同的数据具有不同的属性,即使同一数据在程序的不同执行阶段也可能具有不同的属性。本文首先详细地阐述了一种混合式的分布式共享存储空间,支持对共享数据采用全局寻址的虚地址访问而对私有数据采用快速寻址的实地址访问;进而提出了一种针对混合式的分布式共享存储空间的实时划分技术。该技术根据并行程序中数据的属性,在程序运行时,实时地调整和划分分布式共享存储空间。当数据为私有时,通过实地址访问加快数据的访问速度,当数据为共享时则维持虚地址访问,从而减少整个并行程序运行过程中的地址转换开销,提高系统的性能。实际应用程序的实验结果表明,与传统的分布式共享存储空间相比,实时划分的混合式的分布式共享存储空间具有性能优势,性能的提升比例与具体的网络规模、计算规模、并行程序映射方式等有关。在我们的实验中,性能的提升比例最高为13.14%,最低为6.98%。 陈小文 陈书明 鲁中海 Axel Jantsch关键词:数据属性 分布式共享存储 多核处理器 一种基于块匹配算法的SAD运算加速器 被引量:1 2012年 基于块匹配算法的运动估计是图像和视频应用中的关键技术。SAD运算是运动估计中最主要的运算形式,具有极高的计算复杂度和传输带宽需求。本文提出了一种可配置的SAD运算加速器结构,采用一个16×1规模的PE阵列和一个加法树结构加速SAD运算的执行。本文将PE阵列和加法树结构的流水线进行细致划分,有效提高了工作频率。加速器采用DMA事件机制,大部分的数据传输可以与SAD计算并行进行,减少了数据传输延迟引起的性能下降。实验结果显示,搜索16×16大小的搜索窗口,本文结构只需要4102个周期。基于SMIC0.13μm的CMOS标准单元工艺对本文结构进行综合,最高工作频率可达到750MHz,面积约为16.8k门和3.5KB的片上存储器。 谷会涛 陈书明关键词:块匹配算法 视频编码