首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
激波与火焰面相互作用数值模拟的GPU加速   总被引:1,自引:0,他引:1  
蒋华  董刚  陈霄 《计算物理》2016,33(1):23-29
为考察计算机图形处理器(GPU)在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传统的基于信息传递的MPI 8线程并行计算相比,GPU并行模拟结果与MPI并行模拟结果相同;两种计算方法的计算时间均随网格数量的增加呈线性增长趋势,但GPU的计算时间比MPI明显降低.当网格数量较小时(1.6×104),GPU计算得到的单个时间步长平均时间的加速比为8.6;随着网格数量的增加,GPU的加速比有所下降,但对较大规模的网格数量(4.2×106),GPU的加速比仍可达到5.9.基于GPU的异构并行加速算法为可压缩反应流的高分辨率大规模计算提供了较好的解决途径.  相似文献   

2.
面对需要实时计算的相机位姿估计问题,针对经典的广泛应用的正交迭代算法,提出了一种加速正交迭代算法。其关键思想是将每一次迭代过程规整化,从而提炼出每一次迭代的重复计算,若将此重复计算在迭代开始前提前计算,则可以大幅度的减少迭代过程中的计算量,使得每一次迭代的计算复杂度从O(n)降低为O(1)。因此,可以在更短的时间内迭代更多的次数,从而获得更高的精度。进行了对比实验,结果显示本加速算法计算精度更高,速度更快。并通过实验提出了选择稳健n点透视(RPn P)计算初值,再使用加速正交迭代算法进行迭代运算的方法,在控制点不多的情况下,是一种精度接近最大似然估计,计算速度最快的算法。  相似文献   

3.
发展一种基于迭代子空间直接求逆(DIIS)算法的可用于快速求解原子和分子Hartree-Fock方程的子空间混合算法。该算法利用不同大小的子空间的混合将更接近收敛的Fock矩阵的权重增大,混合后的Fock矩阵作为新的迭代起点能有效减少自洽场迭代(SCF)过程中的迭代次数。与DIIS算法进行对比,发现该算法优于两种不同子空间的DIIS算法,并有效减少了计算量。  相似文献   

4.
在带有详细化学反应机理的可压缩反应流数值模拟中,化学反应源项的计算会极大增加计算时间,基于建表技术的化学加速算法可以通过查找数据表中的数据来替代化学反应计算,从而有效提高计算效率,但数据表尺寸的过度增长会导致计算的中断.文章提出了基于两种数据表容量控制策略的并行动态存储/删除算法,并在激波诱导火焰界面失稳的数值模拟中进行了应用,以考察算法的性能.两种数据表容量控制策略分别为单表容量(Msin)控制和总表容量(Mtot)控制,当单个数据表尺寸达到Msin或总数据表尺寸达到Mtot时,对数据表进行节点删除,以保证计算的正常进行.计算结果表明,文章提出的基于表容量控制的并行加速算法,其计算准确度和计算效率之间存在关联,具有较好计算准确度算例显示了较高的计算效率.在不同的Msin和Mtot条件下,计算的化学加速比在2.73~3.93之间.两种表控策略的组合影响了数据表删除的频率和删除之间的同步性,当数据表删除频率小、删除同步性强时,化学加速比要更高.   相似文献   

5.
 针对条纹投影偏折法中需要多次迭代进行面形恢复,提出一种结合快速傅里叶变换(FFT)算法与泽尼克(Zernike)模式拟合的算法(FFT-尼克)。数值仿真结果表明,直接使用泽尼克模式拟合,需要迭代15次,用时1 min以上,而使用FFT-尼克算法,迭代5次已收敛到理想精度。在保证计算精度在纳米量级的情况下,计算时间也缩短了近2/3。  相似文献   

6.
刘兴平  胡家赣 《计算物理》1995,12(2):219-226
提出一种类似于PE算法的实用并行迭代算法(VPE),可以克服M-1r(s)向量或并行化处理的困难.这种算法格式简单明了,收敛速度快.并证明了当矩阵AM-阵和H-阵时,该算法是收敛的。计算实例显示该算法很有效.  相似文献   

7.
描述了HL-2A等离子体实时平衡重建的GPU并行化算法,主要包括G-S方程的并行化处理、三对角方程求解、网格边界磁通计算以及一系列矩阵相乘的并行加速。并行后,在129×129的网格下完成一次迭代计算需要约575μs。  相似文献   

8.
描述了HL-2A等离子体实时平衡重建的GPU并行化算法,主要包括G-S方程的并行化处理、三对角方程求解、网格边界磁通计算以及一系列矩阵相乘的并行加速.并行后,在129×129的网格下完成一次迭代计算需要约575μs.  相似文献   

9.
张若兴  侯士敏  丑强 《计算物理》2015,32(6):631-638
为了解决基于第一性原理分析计算大尺度量子输运体系时遇到的耗时长久问题,挖掘密度泛函理论与非平衡格林函数相结合方法(DFT+NEGF方法)在自洽迭代过程中的计算热点,就计算电子密度矩阵时的能量点积分和计算格林函数时的矩阵求逆/乘法运算提出MPI/Open MP并行计算方案.能量点积分采用MPI多进程并行方案,在数据初始化时需要将稀疏矩阵和积分能量点依照轮询调度算法分配给各进程.矩阵求逆/乘法的并行化既可调用ScaLAPACK子程序实现又可调用IntelMKL数学库中的OpenMP多线程加速函数实现.由于不同能量点计算的独立性,能量点积分采用的MPI并行计算获得近乎线性的加速比曲线.由于Open MP多线程并行采用的是基于共享内存的数据交换机制以及线程间切换通信开销小,矩阵求逆/乘法运算的OpenMP并行实现在计算效率上要优于而在程序的可扩展性上要劣于MPI多进程并行实现.  相似文献   

10.
反应堆屏蔽计算是评估核电站安全性能的基础,是指导电站设计、运行的重要手段之一。JSNT程序是中物院高性能数值模拟软件中心研制的大规模并行离散纵标输运程序,具有较高的计算精度和计算效率。利用JSNT程序对某压水堆进行了建模计算,给出了中子通量密度的分布结果,并与实验测量值进行了对比。对比结果显示:无论是采用S8计算还是S16计算,计算结果都能满足工程要求;相比S8而言,采用S16计算可以显著提高计算精度,能够将某些测点处的相对误差降至1%以内。  相似文献   

11.
在EAST装置单道运动斯塔克效应(MSE)诊断系统数据处理中,采用CPU(中央处理器)+GPU(图形处理器)异构化模型,实现了数字谐波分析(DHA)算法的并行化加速计算。由CPU完成数据的加载及简单的数学计算,由GPU实现DHA算法的傅里叶正、逆变换及滤波等并行化计算,与串行算法相比,获得了2000倍以上的加速,可以满足MSE诊断实验期间及时数据处理的要求。  相似文献   

12.
为了更好地实现对大尺度器件的模拟,以及更系统地验证和解决高功率微波系统在设计和实验中负载变化等影响,在进一步深入研究电磁PIC并行算法的基础上,运用MPI消息传递函数做出了改进。提出了一种整体建模、分段解析的并行算法,并从并行时序算法入手,通过减少一次同步提高了计算的效率。最后经过一个磁绝缘线振荡器进行验证,改进的算法正确,并且当计算进程数4个增加到16个时,计算速度能提高2.5倍左右。  相似文献   

13.
随着计算空间光调制器的分辨率的尺寸逐渐变大,全息图三维动态显示的计算量也越来越大,使得对全息计算速度提出了新的要求。利用GPU并行计算处理的方式实现全息图的快速层析法计算,该方法利用GPU并行多线程和层析法中的图像二维傅里叶变换的优势对菲涅尔衍射变换算法加速计算;同时通过对GPU底层资源的调用和对CUDA中程序的流处理过程,有效减少中间的延时等待。通过对计算速度对比分析表明:与在CPU上运算相比,计算速度大幅提升,基于GPU并行计算的方法比基于CPU计算的方法速度快10倍左右。  相似文献   

14.
近些年,我国对海洋不断深入的探索对复杂环境中声场的快速预报提出了越来越高的需求。BELLHOP3D是一种基于射线法的三维声传播计算模型,在海洋声学中应用十分广泛。BELLHOP3D的计算效率比其他常用模型高,但是仍然有非常大的提升空间。该文使用信息传递接口对BELLHOP3D进行粗粒度的并行优化,并行后的程序计算结果稳定可靠,并行效率高,更适合在实际应用中实现快速的声场预报。并行BELLHOP3D程序可以在https://github.com/nj-zyq/BELLHOP3D_MPI.git下载。  相似文献   

15.
彭浩  单鸣雷  朱昌平  姚澄 《计算物理》2018,35(5):554-562
格子Boltzmann方法伪势模型算法中的格点间计算未完全局部化,因此在并行计算时需要更多次的全局内存读写、使用更多数量的寄存器和线程同步操作,从而导致GPU并行计算效率下降.本文针对伪势模型并行计算的局限性,基于三维十五速格子结构的多松弛时间伪势模型,以气液相分离为算例,通过合并访问的方式提高全局内存的读写效率;并提出一种"定向转移"算法,提高格子边界格点获取邻居格点数据的效率;最后探索不同资源分配中各种因素对计算效率的影响,总结最优资源分配的方法.  相似文献   

16.
上官丹骅  邓力  李刚  张宝印  马彦  付元光  李瑞  胡小利 《物理学报》2016,65(6):62801-062801
为提高蒙特卡罗临界计算时全局计数的整体效率, 对比分析了新提出的均匀计数密度算法、均匀径迹数密度算法和原有的均匀裂变点算法. 以大亚湾核反应堆pin-by-pin模型的全局体平均通量计数和中子沉积能计数为例, 前两种算法较均匀裂变点算法都获得了整体效率的提高. 上述算法已经在自主开发的并行蒙特卡罗输运程序JMCT上予以实现.  相似文献   

17.
红外弱小目标的目标像素少,目标对比度低,成像帧率高,图像数据量大,检测实时性强。针对红外弱小目标检测算法适合于GPU并行计算的特点,对其在嵌入式GPU平台Jetson TX2上进行了并行优化实现。在检测算法设计、内存访问、调试优化3个方面进行了优化设计。实验结果表明,对640×480像素分辨率的红外视频,并行优化后的目标检测算法能够在10 ms内完成计算,满足实时处理需求。  相似文献   

18.
多级树集合分裂算法是一种简单有效的嵌入式零树编码算法,但它需要多次重复运算,复杂程度高,降低了编码效率.针对该算法的不足,提出了一种改进的多级树集合分裂算法,在相同的小波变换条件下,通过增加零树深度,减少了表示位置信息的系数,提高了表示有效系数的信息,该算法改变了原来的扫描顺序,便于并行处理.实验表明在压缩性能相同的情况下,提高了编码效率.  相似文献   

19.
王晓冰  梁子长 《物理学报》2012,61(12):124104-124104
采用快速远场近似的降秩电磁流迭代法计算目标与粗糙水面的复合散射, 并进一步采用粗糙面分区的多进程并行迭代算法提高其计算速度, 分析了降秩电磁流迭代法对散射结果的影响, 表明该方法可用于近场复合散射问题的计算; 对平板目标与水面间的复合散射进行了计算, 计算结果与快速多极子方法(MLFMM)结果符合较好, 验证了该算法的有效性. 同时, 利用造波水池开展了目标与水面近场复合散射的模拟实测, 测试与计算结果趋势较为一致.  相似文献   

20.
We present the numerical analysis and improvement of the bandwidth of the beam phasing of fiber amplifiers using the stochastic parallel gradient descent (SPGD) algorithm. Time-varying phase distortions are incorporated into the dynamic simulation. It is shown by numerical calculation that the bandwidth of the standard SPGD algorithm is dependent on the phase distortions and on the number of lasers. The time-averaged cost function will decrease with an increase in the amplitude and frequency of phase distortions, and in the number of lasers. A cross-grouped SPGD algorithm is proposed, which offers attractive performance due to its robustness to various time-varying phase distortions and faster convergence rate for beam phasing of larger number of lasers. Dynamic simulation shows that the control bandwidth can be improved using the cross-grouped SPGD algorithm.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号