首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
紧束缚近似的含时密度泛函理论在多核和GPU系统下的高效加速实现,并应用于拥有成百上千原子体系的激发态电子结构计算.程序中采用了稀疏矩阵和OpenMP并行化来加速哈密顿矩阵的构建,而最为耗时的基态对角化部分通过双精度的GPU加速来实现.基态的GPU加速能够在保持计算精度的基础上达到8.73倍的加速比.激发态计算采用了基于Krylov子空间迭代算法,OpenMP并行化和GPU加速等方法对激发态计算的大规模TDDFT矩阵进行求解,从而得到本征值和本征矢,大大减少了迭代的次数和最终的求解时间.采用GPU对矩阵矢量相乘进行加速后的Krylov算法能够很快地达到收敛,使得相比于采用常规算法和CPU并行化的程序能够加速206倍.程序在一系列的小分子体系和大分子体系上的计算表明,相比基于第一性原理的CIS方法和含时密度泛函方法,程序能够花费很少的计算量取得合理而精确结果.  相似文献   

2.
相比于传统同步并行计算策略,在异步并行计算框架下,针对最常用的总变分(TV)最小化重建模型,通过将其转化为不动点迭代问题,并利用异步交替方向法(ADM)进行求解,推导出基于TV最小化模型的异步ADM迭代重建算法,即异步交替方向总变分最小化算法(Async-ADTVM)。利用消息传递接口技术将该算法在图形处理器(GPU)集群上进行测试,进一步提高了原始基于TV最小化模型的迭代重建算法的计算效率。实验表明,该算法在计算求解精度上略优于ADTVM算法,同时在GPU性能存在差异的条件下相比传统多GPU加速策略可获得更高的加速比。  相似文献   

3.
祁美玲  杨琼  王苍龙  田园  杨磊 《计算物理》2017,34(4):461-467
基于NIVIDIA公司的CUDA架构对结构材料辐照损伤的分子动力学程序在单个GPU上进行并行化,并对影响程序运行效率的相关因素进行分析和测试.经过一系列优化,当粒子数为两百万时,对比单CPU的执行时间,优化后的GPU程序其双精度加速比可达112倍,单精度加速比达到了三百倍,为后续扩展多GPU结构材料辐照损伤的分子动力学程序奠定基础.  相似文献   

4.
实现了基于计算统一设备架构(CUDA)的直接模拟Monte Carlo(DSMC)并行算法,改进了原有多图形处理器(GPU)数据之间传输并行算法,数值模拟计算二维Couette流和二维顶盖驱动方腔流,定量比较了CPU、单GPU和多GPU并行计算的结果和计算时间.结果表明单GPU并行计算相对CPU计算的加速效果可以达到10~30倍,双GPU并行计算加速效果可以达到40~60倍,多GPU并行计算的加速效率接近100%,且计算精度能够得到良好保证.  相似文献   

5.
张锐  文立华  校金友 《计算物理》2015,32(3):299-309
提出一种大规模声学边界元法的高效率、高精度GPU并行计算方法.基于Burton-Miller边界积分方程,推导适于GPU的并行计算格式并实现了传统边界元法的GPU加速算法.为提高原型算法的效率,研究GPU数据缓存优化方法.由于GPU的双精度浮点运算能力较低,为了降低数值误差,研究基于单精度浮点运算实现的doublesingle精度算法.数值算例表明,改进的算法实现了最高89.8%的GPU使用效率,且数值精度与直接使用双精度数相当,而计算时间仅为其1/28,显存消耗也仅为其一半.该方法可在普通PC机(8GB内存,NVIDIA Ge Force 660 Ti显卡)上快速完成自由度超过300万的大规模声学边界元分析,计算速度和内存消耗均优于快速边界元法.  相似文献   

6.
Particle-Mesh Ewald(PME)算法的GPU加速   总被引:1,自引:0,他引:1  
徐骥  葛蔚  任瑛  李静海 《计算物理》2010,27(4):548-554
讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部分的GPU实现.此方法已成功用于7个不同大小的生物分子体系的模拟计算,达到了7倍左右的加速.该程序可耦合到现有分子动力学模拟软件中,或作为进一步开发的GPU分子动力学程序的一部分,显著加速传统分子动力学程序.  相似文献   

7.
基于格子Boltzmann方法的多孔介质流动模拟GPU加速   总被引:1,自引:0,他引:1  
利用NVIDIA CUDA平台,在GPU上结合稀疏存贮算法实现基于格子Boltzmann方法的孔隙尺度多孔介质流动模拟加速,测试该算法相对基本算法的性能.比较该算法在不同GPU上使用LBGK和MRT两种碰撞模型及单、双精度计算时的性能差异.测试结果表明在GPU环境下采用稀疏存贮算法相对基本算法能大幅提高计算速度并节省显存,相对于串行CPU程序加速比达到两个量级.使用较新构架的GPU时,MRT和LBGK碰撞模型在单、双浮点数精度下计算速度相同.而在较上一代的GPU上,计算精度对MRT碰撞模型计算速度影响较大.  相似文献   

8.
汪先超  闫镔*  刘宏奎  李磊  魏星  胡国恩 《物理学报》2013,62(9):98702-098702
本文基于数据重排方法, 提出了T-BPF (Tent-BPF)算法, 该算法先将锥束投影数据重排成平行投影数据, 然后使用一种推导的BPF型算法重建重排后的平行投影数据. T-BPF算法将原BPF算法反投影中变化的角度积分限变成固定的, 反投影中各层循环之间没有了相关性, 这意味着T-BPF算法较原BPF算法具有更好的可并行性. 实验结果显示: 使用GPU对2563的Shepp-Logan体模的图像重建进行并行加速, T-BPF算法在保证重建质量的前提下, 加速比达到了1036, 较原BPF算法有很大提升. T-BPF算法为截断投影数据的3D图像快速重建提供了方法. 关键词: X射线光学 CT 图像重建 GPU  相似文献   

9.
为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU 的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步提高重建速度。  相似文献   

10.
激波与火焰面相互作用数值模拟的GPU加速   总被引:1,自引:0,他引:1  
蒋华  董刚  陈霄 《计算物理》2016,33(1):23-29
为考察计算机图形处理器(GPU)在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传统的基于信息传递的MPI 8线程并行计算相比,GPU并行模拟结果与MPI并行模拟结果相同;两种计算方法的计算时间均随网格数量的增加呈线性增长趋势,但GPU的计算时间比MPI明显降低.当网格数量较小时(1.6×104),GPU计算得到的单个时间步长平均时间的加速比为8.6;随着网格数量的增加,GPU的加速比有所下降,但对较大规模的网格数量(4.2×106),GPU的加速比仍可达到5.9.基于GPU的异构并行加速算法为可压缩反应流的高分辨率大规模计算提供了较好的解决途径.  相似文献   

11.
描述了HL-2A等离子体实时平衡重建的GPU并行化算法,主要包括G-S方程的并行化处理、三对角方程求解、网格边界磁通计算以及一系列矩阵相乘的并行加速.并行后,在129×129的网格下完成一次迭代计算需要约575μs.  相似文献   

12.
描述了HL-2A等离子体实时平衡重建的GPU并行化算法,主要包括G-S方程的并行化处理、三对角方程求解、网格边界磁通计算以及一系列矩阵相乘的并行加速。并行后,在129×129的网格下完成一次迭代计算需要约575μs。  相似文献   

13.
求解隐式差分方程的并行算法   总被引:3,自引:0,他引:3  
张宝琳  苏秀敏 《计算物理》1992,9(3):250-256
本文研究了求解隐式差分方程的并行算法,其基本想法是把差分方程组化为若干个子方程组来求解,文中给出了直接法和迭代法,证明了迭代法的收敛性。为了说明分段隐式迭代方法的有效性,文中针对扩散方程的具体例子给出了数值试验计算结果。  相似文献   

14.
研究各流域三维流动问题的Boltzmann模型方程计算方法,建立直接求解分子速度分布函数的气体运动论耦合迭代数值格式;基于变量依赖关系、数据通信与并行可扩展性分析,使用区域分解并行化方法,建立气体运动论数值算法并行方案,发展求解各流域三维绕流问题的气体运动论并行算法.拟定高低不同马赫数下来自不同流域的三维球体及返回舱绕流算例,进行高性能Fortran(HPF)大规模并行计算,将计算结果与有关实验数据、相关理论预测等进行比较分析,研究揭示不同流区复杂绕流现象及流动机理.研究表明,所发展的气体运动论并行算法具有很好的并行独立性,基本达到线性加速的并行效果,显示出良好的并行可扩展性.  相似文献   

15.
TE01-TE11模式变换器的迭代设计方法   总被引:1,自引:0,他引:1       下载免费PDF全文
 对模式变换器的迭代设计方法做了改进:给出了合理的迭代步长初始值取值方式;在迭代时只考虑了贡献较大的几条耦合线,而忽略了贡献小的耦合线,从而改善带宽。利用改进的迭代设计方法设计了波导直径与自由空间波长比值为2.765 5的TE01-TE11模式变换器,总长度为600 mm,相对带宽为6%,中心频率转换效率为99.14%,总计算时间为40 s。利用CST软件进行了仿真验证,结果吻合较好。  相似文献   

16.
宋旸  张斌  贺安之 《光子学报》2007,36(4):636-641
描述了一种新的叠栅层析代数迭代模型,并针对传统代数迭代法中的垂直投影算法收敛速度较慢的问题,结合新模型提出了一种改进了的平行投影重建算法.用该算法进行了数值模拟重建,结果表明:与叠栅层析中的变换类算法相比,对非完全数据问题,新算法具有有效结合先验知识进行重建的能力;与传统的垂直投影算法相比,新算法能在保证重建准确度的前提下大幅度的提高收敛速度.  相似文献   

17.
杨龙  杨益新  汪勇  卓颉 《声学学报》2016,41(4):465-476
针对稀疏信号的超分辨方位估计问题,提出一种可变因子的稀疏近似最小方差算法(α-Sparse Asymptotic Minimum Variance,简记为SAMV-α)。该算法利用一个折衷参数进行最大似然估计值和稀疏性能的折衷处理,在迭代过程中改变稀疏近似最小方差算法(Sparse Asymptotic Minimum Variance,SAMV)的指数因子,得到强稀疏性能和超低旁瓣的方位谱图,实现邻近目标的超分辨方位估计和相干处理性能,且无需预估角度和信源数目等先验信息,并且折衷参数的取值为0到1之间,取值区间明确,避免了稀疏信号处理算法中正则因子选取困难的弊端。计算机仿真表明SAMV-α算法方位估计性能明显优于波束扫描类算法和子空间类算法,与同类型稀疏信号处理类算法相比仍具有较高的方位估计精度,同时对于邻近声源分辨能力,SAMV-α算法较SAMV-1算法性能提高约3dB。海上试验数据处理给出了分辨率更高的方位时间历程(Bering-Time Recording,BTR)图,有效验证了SAMV-α算法的性能。   相似文献   

18.
采用详细化学反应机理对气相斜爆轰问题开展数值计算时,由于组分之间的特征时间尺度相差很大,反应源项的直接积分(direct integration,DI)求解通常存在强烈的刚性及非线性现象,导致计算量很大.为了在不损失计算精度的基础上有效减少化学反应过程的计算时间,针对包含2H2+O2详细机理的二维斜爆轰并行计算,提出两...  相似文献   

19.
A new model-model of random porous mediz degradation via several fluid displacing,freezing,and thawing cycles is introduced and investigated in this paper.The fluid transport is based on the deterministic method with dispersion effect.The result shows that the topology and the geometry of the porous media have a strong effect on displacement processes.The cluster size of viscous fingering (VF) pattern in percolation cluster increases with the increase of iteration parameter n.When iteration parameter n≥10,VF pattern does not change with n.We find that the displacement fluid forms trapping regions in random porous media with dispersion effect.And the trapping regions will expand with the increasing of the iteration parameter n.When r (throat size)→1 and n≥5,the peak value of the distribution Nmat(r) increases as n increases,where Nmat(r) is the normalized distribution of throat sizes after different displacement-damages but before freezing.The peak value of the distribution Ninv(r) reaches a maximum when n≥10 and r=1,where Ninv(r) is the normalized distribution of the size of invaded throat.This result is different from invasion percolation.It is found that the sweep efficiency E increases along with the increasing of iteration parameter n and decreases with the network size L,and E has a minimum as L increases to the maximum size of lattice.The VF pattern in percolation cluster has one frozen zone and one active zone.  相似文献   

20.
轴对称超短强激光在空气中的传输可以用2D+1维非线性薛定谔方程来描述,该方程一般可用FCN方法进行求解,即在时间上应用快速傅里叶变换方法、在空间横截面上采用Crank-Nicholson差分法。但由于计算非常耗时,传统串行的FCN方法只能计算强激光在百m量级距离上传输。基于OpenMP设计了求解2D+1维非线性薛定谔方程的并行方法及其程序。数值模拟结果证明了程序的正确性和较高的并行效率。当线程数为15时并行加速比为12。此并行方法可应用于模拟长距离的超短超强激光的传输。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号