您的位置: 专家智库 > >

文敏华

作品数:18 被引量:5H指数:1
供职机构:上海交通大学更多>>
发文基金:国家高技术研究发展计划海洋工程国家重点实验室开放基金国家自然科学基金更多>>
相关领域:自动化与计算机技术理学航空宇航科学技术动力工程及工程热物理更多>>

文献类型

  • 10篇专利
  • 6篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 10篇自动化与计算...
  • 2篇理学
  • 1篇动力工程及工...
  • 1篇航空宇航科学...

主题

  • 5篇网格
  • 4篇硬件
  • 4篇GPU
  • 3篇数据读取
  • 3篇CUDA
  • 2篇单指令多数据
  • 2篇动态负载均衡
  • 2篇动态网
  • 2篇动态网格
  • 2篇硬件特性
  • 2篇指令集
  • 2篇声子
  • 2篇时间片
  • 2篇数据输出
  • 2篇数值模拟
  • 2篇湍流
  • 2篇湍流燃烧
  • 2篇平衡态
  • 2篇燃烧
  • 2篇主线程

机构

  • 18篇上海交通大学
  • 3篇东京工业大学

作者

  • 18篇文敏华
  • 16篇林新华
  • 11篇韦建文
  • 8篇王一超
  • 2篇鲍华
  • 2篇王杰
  • 2篇张斌
  • 2篇李林颖
  • 2篇秦强
  • 1篇胡文蓉
  • 1篇刘洪
  • 1篇郝赫
  • 1篇王一超

传媒

  • 2篇计算机工程与...
  • 2篇计算机科学与...
  • 1篇水动力学研究...
  • 1篇计算机科学
  • 1篇2012全国...

年份

  • 2篇2024
  • 2篇2023
  • 2篇2022
  • 1篇2021
  • 1篇2020
  • 2篇2019
  • 2篇2017
  • 1篇2016
  • 2篇2013
  • 3篇2012
18 条 记 录,以下是 1-10
排序方式:
翼沉浮运动推力来源的数值研究被引量:2
2012年
用数值模拟研究沉浮运动机翼的推力来源,并分析了雷诺数、沉浮幅度、翼型厚度以及外形等因素的影响。结果表明:非定常情况下的流场和流体动力与定常情况下完全不同;不同条件下粘性力和压差力对推力的贡献也很不一样;流体动力与流场涡结构密切相关,在某些情况下粘性力有可能成为推力的主要来源。
文敏华胡文蓉刘洪
关键词:不可压缩N-S方程
N体模拟在异构架构的并行加速实现方法
一种N体模拟在异构架构的并行加速实现方法,通过初始化后更新缓冲区,通过CPU内存与GPU显存之间的信息传输后,依次通过GPU以分桶算法计算粒子之间的短程力并返回结果至CPU端;通过CPU计算粒子之间的长程力及加速度后更新...
文敏华胡航王一超韦建文林新华
文献传递
基于指数增长的多硬件事件监控计数值估计方法
一种基于指数增长的多硬件事件监控计数值估计方法,分别通过主线程维护工作流程的生命周期、创建和初始化相关数据结构和从线程,发送从线程控制信号以及运行被监控应用,通过从线程响应主线程的生命周期信号、进行硬件事件调度、定时轮流...
王一超王杰文敏华韦建文林新华
文献传递
拍动翼的非定常流动机理的数值研究
拍翼运动的研究对于人类了解自然、改造飞行器具有重要意义。近几十年来,人们对拍翼运动做了很多研究,对其认识取得了很多进展,然而,由于其流动机理较为复杂,目前人们对它的很多流动细节尚不清楚。 本文先对开源CFD软件Op...
文敏华
关键词:拍动翼非定常流动OPENFOAM
文献传递
利用Stencil建模及评估Intel IMCI vgather指令被引量:1
2016年
Intel Xeon Phi协处理器的指令集IMCI引入了硬件实现的vgather指令,旨在帮助512位SIMD寄存器访问非连续内存地址上的数据。然而实验结果显示,vgather很有可能成为应用在Xeon Phi协处理器上关键的性能瓶颈之一。基于以上结论,针对vgather的性能建模可以帮助用户深入地掌握和理解Xeon Phi协处理器的性能特性。在实验方法上,本文方法与现存的通过程序段内嵌入汇编代码进行数据统计不同,使用PAPI等性能分析工具直接收集硬件计数器的统计结果,作为模型的实验数据。本文的性能模型基于AGI事件次数和根据VPU_DATA_READ次数估算得出的vgather所导致的平均延迟构建而成。该模型能够对Xeon Phi应用代码中由vgather所导致的总延迟进行预测。最终,为了验证模型预测的准确性,将该模型应用在三维7点stencil应用代码上,预测结果显示,vgather耗时占计算总耗时的约40%。再将该结果与利用intrinsics指令去除vgather后的计算耗时进行了对比验证,结果显示模型预测准确。基于上述结论,采用硬件计数器的统计结果在Xeon Phi协处理器上针对vgather构建了性能模型。同时,通过与其他平台的vgather对比,认为该模型也可以应用在同样具备vgather的Intel CPU处理器平台上。
林新华王一超秦强李硕文敏华松岡聡
关键词:XEONPHI
基于有限体积法求解声子玻尔兹曼方程的GPU并行加速方法
一种基于有限体积法求解声子玻尔兹曼方程的GPU并行加速方法,通过划分非结构网格,确定边界条件和计算参数并初始化能量密度分布后,从CPU内存向GPU显存传输每个网格单元之间的影响系数;然后计算声子散射项,并使用稳定双共轭梯...
文敏华刘永志林新华鲍华沈泳星胡跃王一超韦建文
文献传递
在ARMv8处理器上质点网格法的并行实现方法
一种在支持ARMv8指令集的处理器上质点网格法的并行实现方法,在完成进程空间与线程空间划分后,加载网格单元内粒子并初始化,完成计算更新粒子及场强数据信息后再将结果数据以文件形式输出,当计算时出现负载不均衡则进行动态负载均...
王一超陈昕鑫文敏华韦建文林新华
文献传递
基于GPU的湍流燃烧数值模拟并行加速实现方法
一种基于GPU的湍流燃烧数值模拟并行加速实现方法,通过设置GPU并行计算龙格‑库塔方法的求解过程中的迭代部分,配合设置CPU进行计算过程的数据读取、数据输出以及计算流程控制,经加速运算后得到稳态的准确能量密度的分布和温度...
文敏华汪申鹏韦建文李林颖张斌林新华
动态网格的DSMC方法在GPU上的并行
2013年
直接模拟蒙特卡罗方法(direct simulation Monte Carlo,DSMC)是稀薄气体动力学领域的重要工具。然而,DSMC方法有两个比较主要的缺点:一是复杂的网格处理;另一个是庞大的计算量。使用动态网格的DSMC方法可以根据流场信息,动态生成自适应的碰撞网格,能有效解决前一个缺点;针对后一个缺点,使用统一计算架构(compute unified device architecture,CUDA)编写并行程序,将基于动态网格的DSMC方法移植到图形处理器(graphic processing unit,GPU)上以减少计算时间。在并行实现中,GPU负责绝大部分的计算,而CPU只负责初始化、结果输出等少量工作。使用一个二维超音速横掠平板问题作为算例,验证了并行程序的正确性。对于不同规模的算例,在NVIDIA Fermi C2050之上均获得了10倍以上的加速比;对于相同算例,NVIDIA最新发布的Kepler K20上的速度约为FermiC2050上的1.3~1.6倍。
文敏华林新华Simon Chong Wee See
使用Stencil评估Intel AVX2 Vgather指令
2017年
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。
林新华秦强李硕文敏华松岗聪
关键词:STENCIL
共2页<12>
聚类工具0