首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
随着计算空间光调制器的分辨率的尺寸逐渐变大,全息图三维动态显示的计算量也越来越大,使得对全息计算速度提出了新的要求。利用GPU并行计算处理的方式实现全息图的快速层析法计算,该方法利用GPU并行多线程和层析法中的图像二维傅里叶变换的优势对菲涅尔衍射变换算法加速计算;同时通过对GPU底层资源的调用和对CUDA中程序的流处理过程,有效减少中间的延时等待。通过对计算速度对比分析表明:与在CPU上运算相比,计算速度大幅提升,基于GPU并行计算的方法比基于CPU计算的方法速度快10倍左右。  相似文献   

2.
为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU 的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步提高重建速度。  相似文献   

3.
激波与火焰面相互作用数值模拟的GPU加速   总被引:1,自引:0,他引:1  
蒋华  董刚  陈霄 《计算物理》2016,33(1):23-29
为考察计算机图形处理器(GPU)在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传统的基于信息传递的MPI 8线程并行计算相比,GPU并行模拟结果与MPI并行模拟结果相同;两种计算方法的计算时间均随网格数量的增加呈线性增长趋势,但GPU的计算时间比MPI明显降低.当网格数量较小时(1.6×104),GPU计算得到的单个时间步长平均时间的加速比为8.6;随着网格数量的增加,GPU的加速比有所下降,但对较大规模的网格数量(4.2×106),GPU的加速比仍可达到5.9.基于GPU的异构并行加速算法为可压缩反应流的高分辨率大规模计算提供了较好的解决途径.  相似文献   

4.
针对二维柱几何非定常中子输运方程的Sn-间断有限元方法,提出基于格式的界面预估校正并行算法.数值算例表明,该并行算法在精度与并行度等诸方面均具有良好的性质,与已有的基于隐式格式的并行扫描算法相比,对于二维中子输运大规模计算问题,并行计算效率较高,并行加速比可增加-倍以上,且可保持原隐式格式的计算精度.  相似文献   

5.
本文针对通用图形处理器(GPGPU)的特点,对二维传热数值求解算法及三类不同边界条件问题在GPU上的求解进行了分析.图形处理器是一种专用并行处理器,主要用于三维场景渲染加速,其结构和程序设计方式与CPU完全不同,但却比CPU具有更强的浮点运算能力和内存带宽.随着图形处理器可编程特性的发展,它已越来越超出原有的应用范围,向通用计算领域发展,成为一个新的研究领域.采用Jacobi迭代,能够在GPU上实现二维导热方程的求解.本文在已有研究的基础上,实现了二维导热计算的混合边界条件问题在GPU上的求解方法,通过计算时间的比较显示GPU在计算传热学中有良好应用前景.  相似文献   

6.
KSSOLV(Kohn-Sham Solver)是一款用于求解平面波基组下Kohn-Sham方程(KS-DFT)的MATLAB(Matrix Laboratory)工具箱. 在KS-DFT的基态计算中,通常自洽场迭代中Kohn-Sham哈密顿量的对角化是最昂贵的部分. 为了使得个人计算机也能够执行数百个原子的中等大小KS-DFT计算,本文提出了一种CPU-GPU的混合编程方案,通过调用MATLAB内置的并行计算工具箱来加速在KSSOLV中实现的迭代对角化算法. 比较了KSSOLV-GPU在RTX3090、V100、A100三种GPU上的性能;结果表明,对于包含128个原子的块状硅体系,与串行的CPU计算相比,混合CPU-GPU的编程可以实现约10倍的加速. 特别是其在最新的民用GPU显卡RTX3090上也具有优秀的表现,可以预想到在不远的将来,KSSOLV-GPU借助MATLAB强大的可视化能力与GPU的加速支持可以在一台配备了民用GPU显卡的个人电脑上实现常规的DFT计算分析与可视化,从而降低了材料模拟与计算领域的门槛.  相似文献   

7.
KSSO LV(Kohn-Sham Solver)是一款用于求解平面波基组下Kohn-Sham方程(KS-DFT)的MATLAB (Matrix Laboratory)工具箱.在KS-DFT的基态计算中,通常自洽场迭代中Kohn-Sham哈密顿量的对角化是最昂贵的部分.为了使得个人计算机也能够执行数百个原子的中等大小KS-DFT计算,本文提出了一种CPUGPU的混合编程方案,通过调用MATLAB内置的并行计算工具箱来加速在KSSOLV中实现的迭代对角化算法.比较了 KSSOLV-GPU在RTX3090、V100、A100三种GPU上的性能;结果表明,对于包含128个原子的块状硅体系,与串行的CPU计算相比,混合CPU-GPU的编程可以实现约10倍的加速.特别是其在最新的民用GPU显卡RTX3090上也具有优秀的表现,可以预想到在不远的将来,KSSOLV-GPU借助MATLAB强大的可视化能力与GPU的加速支持可以在一台配备了民用GPU显卡的个人电脑上实现常规的D FT计算分析与可视化,从而降低了材料模拟与计算领域的门槛.  相似文献   

8.
针对现代战争复杂电磁环境以及数字相控阵雷达干扰信号生成数据量大、多波束等难点,利用图形处理器(GPU)带宽高,运算能力强的特点,使用OpenCL异构编程框架实现数据级并行策略,设计了基于OpenCL的五种典型数字干扰并行算法。算法根据GPU的读写机制进行优化设计,充分发掘了现有GPU的并行计算能力。实验结果表明:基于GPU的数据并行计算程序与中央处理器(CPU)平台相比较,加速比最大可达3.25,提高了相关雷达回波模拟设备的速度,基本满足数字相控阵雷达信号处理的实时性要求。  相似文献   

9.
祁美玲  杨琼  王苍龙  田园  杨磊 《计算物理》2017,34(4):461-467
基于NIVIDIA公司的CUDA架构对结构材料辐照损伤的分子动力学程序在单个GPU上进行并行化,并对影响程序运行效率的相关因素进行分析和测试.经过一系列优化,当粒子数为两百万时,对比单CPU的执行时间,优化后的GPU程序其双精度加速比可达112倍,单精度加速比达到了三百倍,为后续扩展多GPU结构材料辐照损伤的分子动力学程序奠定基础.  相似文献   

10.
在EAST装置单道运动斯塔克效应(MSE)诊断系统数据处理中,采用CPU(中央处理器)+GPU(图形处理器)异构化模型,实现了数字谐波分析(DHA)算法的并行化加速计算。由CPU完成数据的加载及简单的数学计算,由GPU实现DHA算法的傅里叶正、逆变换及滤波等并行化计算,与串行算法相比,获得了2000倍以上的加速,可以满足MSE诊断实验期间及时数据处理的要求。  相似文献   

11.
陈富州  程晨  罗洪刚 《物理学报》2019,68(12):120202-120202
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB.  相似文献   

12.
在EAST装置单道运动斯塔克效应(MSE)诊断系统数据处理中,采用CPU(中央处理器)+GPU(图形处理器)异构化模型,实现了数字谐波分析(DHA)算法的并行化加速计算。由CPU完成数据的加载及简单的数学计算,由GPU实现DHA算法的傅里叶正、逆变换及滤波等并行化计算,与串行算法相比,获得了2000倍以上的加速,可以满足MSE诊断实验期间及时数据处理的要求。  相似文献   

13.
采用离散传递法计算目标的红外辐射特征首先要计算角系数,对于复杂目标,角系数计算会耗费大量时间。针对角系数计算中遮挡判断问题,提出了一种不需要求解微元面中心点连线与遮挡面交点的矢量法。开发了基于矢量法的GPU并行程序,并使用一个有理论解的模型验证了程序的正确性,最后针对航空发动机排气系统复杂模型,在一台配置有448个核心的GPU处理器和主频为3.4GHz CPU处理器的工作站上,评估了基于矢量法的GPU程序相对单核CPU程序的加速效果。结果表明;在微元面数量为13670时,矢量法可获得约73倍的加速比,是采用线面求交法获得的加速比的1.4倍。使用离散传递法计算航空发动机排气系统的红外辐射特征时,仅将角系数模块使用GPU并行计算,可减少45%的计算时间。  相似文献   

14.
耗散粒子动力学GPU并行计算研究   总被引:1,自引:0,他引:1       下载免费PDF全文
林晨森  陈硕  李启良  杨志刚 《物理学报》2014,63(10):104702-104702
研究了耗散粒子动力学基于计算统一设备架构的图形处理器(GPU)并行计算的实施.对其中涉及的算法映射模型、Cell-List法数组的并行化更新、随机数生成、存储器访问优化、负载平衡等进行了详细的讨论.进一步模拟了Poiseuille流动和突扩突缩流动,从而验证了GPU计算结果的正确性.计算结果表明,相对于基于中央处理器的串行计算,在耗散粒子动力学中实施GPU并行计算可以获得约20倍的加速比.  相似文献   

15.
基于格子Boltzmann方法的多孔介质流动模拟GPU加速   总被引:1,自引:0,他引:1  
利用NVIDIA CUDA平台,在GPU上结合稀疏存贮算法实现基于格子Boltzmann方法的孔隙尺度多孔介质流动模拟加速,测试该算法相对基本算法的性能.比较该算法在不同GPU上使用LBGK和MRT两种碰撞模型及单、双精度计算时的性能差异.测试结果表明在GPU环境下采用稀疏存贮算法相对基本算法能大幅提高计算速度并节省显存,相对于串行CPU程序加速比达到两个量级.使用较新构架的GPU时,MRT和LBGK碰撞模型在单、双浮点数精度下计算速度相同.而在较上一代的GPU上,计算精度对MRT碰撞模型计算速度影响较大.  相似文献   

16.
针对交错网格下的SIMPLE数值算法实施了分区并行计算方法,在小型局域网下实现了流动和传热问题的并行数值计算.对两个经典的流动和传热问题的数值模拟实验表明,所建立的并行计算环境和分区并行算法能够得到正确的和收敛的数值结果.但与串行计算结果相比,并行计算误差明显大于串行计算误差.对并行算法做出的性能分析表明,所给出的并行算法得到了明显的加速效率.随着计算规模的增大,加速比和并行效率提高更显著.  相似文献   

17.
李大禹  胡立发  穆全全  宣丽 《光子学报》2008,37(8):1643-1647
利用GPU进行液晶自适应光学波前重构的加速计算.介绍了液晶自适应光学的Zernike模式波前重构算法,详细论述了GPU的通用架构和GPU实现波前重构的方法,给出了GPU与CPU的实验对比结果.结果表明,GPU计算波前重构不但可以准确无误地计算出液晶波前校正器的灰度级分布,计算速度更是传统CPU波前计算的几十倍.  相似文献   

18.
孙玉强  李银银  顾玉宛 《应用声学》2017,25(3):195-196, 230
并行问题和最短路径问题已成为一个热点研究课题,传统的最短路径算法已不能满足数据爆炸式增长的处理需求,尤其当网络规模很大时,所需的计算时间和存储空间也大大的增加;MapReduce模型的出现,带来了一种新的解决方法来解决最短路径;GPU具有强大的并行计算能力和存储带宽,与CPU相比具有明显的优势;通过研究MapReduce模型和GPU执行过程的分析,指出单独基于MapReduce模型的最短路径并行方法存在的问题,降低了系统的性能;论文的创新点是结合MapReduce和GPU形成双并行模型,并行预处理数据,针对最短路径中的数据传输和同步开销,增加数据动态处理器;最后实验从并行算法的性能评价指标平均加速比进行比较,结果表明,双重并行环境下的最短路径的计算,提高了加速比。  相似文献   

19.
研究各流域三维流动问题的Boltzmann模型方程计算方法,建立直接求解分子速度分布函数的气体运动论耦合迭代数值格式;基于变量依赖关系、数据通信与并行可扩展性分析,使用区域分解并行化方法,建立气体运动论数值算法并行方案,发展求解各流域三维绕流问题的气体运动论并行算法.拟定高低不同马赫数下来自不同流域的三维球体及返回舱绕流算例,进行高性能Fortran(HPF)大规模并行计算,将计算结果与有关实验数据、相关理论预测等进行比较分析,研究揭示不同流区复杂绕流现象及流动机理.研究表明,所发展的气体运动论并行算法具有很好的并行独立性,基本达到线性加速的并行效果,显示出良好的并行可扩展性.  相似文献   

20.
紧束缚近似的含时密度泛函理论在多核和GPU系统下的高效加速实现,并应用于拥有成百上千原子体系的激发态电子结构计算.程序中采用了稀疏矩阵和OpenMP并行化来加速哈密顿矩阵的构建,而最为耗时的基态对角化部分通过双精度的GPU加速来实现.基态的GPU加速能够在保持计算精度的基础上达到8.73倍的加速比.激发态计算采用了基于Krylov子空间迭代算法,OpenMP并行化和GPU加速等方法对激发态计算的大规模TDDFT矩阵进行求解,从而得到本征值和本征矢,大大减少了迭代的次数和最终的求解时间.采用GPU对矩阵矢量相乘进行加速后的Krylov算法能够很快地达到收敛,使得相比于采用常规算法和CPU并行化的程序能够加速206倍.程序在一系列的小分子体系和大分子体系上的计算表明,相比基于第一性原理的CIS方法和含时密度泛函方法,程序能够花费很少的计算量取得合理而精确结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号