共查询到20条相似文献,搜索用时 62 毫秒
1.
随着计算空间光调制器的分辨率的尺寸逐渐变大,全息图三维动态显示的计算量也越来越大,使得对全息计算速度提出了新的要求。利用GPU并行计算处理的方式实现全息图的快速层析法计算,该方法利用GPU并行多线程和层析法中的图像二维傅里叶变换的优势对菲涅尔衍射变换算法加速计算;同时通过对GPU底层资源的调用和对CUDA中程序的流处理过程,有效减少中间的延时等待。通过对计算速度对比分析表明:与在CPU上运算相比,计算速度大幅提升,基于GPU并行计算的方法比基于CPU计算的方法速度快10倍左右。 相似文献
2.
3.
激波与火焰面相互作用数值模拟的GPU加速 总被引:1,自引:0,他引:1
为考察计算机图形处理器(GPU)在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传统的基于信息传递的MPI 8线程并行计算相比,GPU并行模拟结果与MPI并行模拟结果相同;两种计算方法的计算时间均随网格数量的增加呈线性增长趋势,但GPU的计算时间比MPI明显降低.当网格数量较小时(1.6×104),GPU计算得到的单个时间步长平均时间的加速比为8.6;随着网格数量的增加,GPU的加速比有所下降,但对较大规模的网格数量(4.2×106),GPU的加速比仍可达到5.9.基于GPU的异构并行加速算法为可压缩反应流的高分辨率大规模计算提供了较好的解决途径. 相似文献
4.
5.
本文针对通用图形处理器(GPGPU)的特点,对二维传热数值求解算法及三类不同边界条件问题在GPU上的求解进行了分析.图形处理器是一种专用并行处理器,主要用于三维场景渲染加速,其结构和程序设计方式与CPU完全不同,但却比CPU具有更强的浮点运算能力和内存带宽.随着图形处理器可编程特性的发展,它已越来越超出原有的应用范围,向通用计算领域发展,成为一个新的研究领域.采用Jacobi迭代,能够在GPU上实现二维导热方程的求解.本文在已有研究的基础上,实现了二维导热计算的混合边界条件问题在GPU上的求解方法,通过计算时间的比较显示GPU在计算传热学中有良好应用前景. 相似文献
6.
KSSOLV(Kohn-Sham Solver)是一款用于求解平面波基组下Kohn-Sham方程(KS-DFT)的MATLAB(Matrix Laboratory)工具箱. 在KS-DFT的基态计算中,通常自洽场迭代中Kohn-Sham哈密顿量的对角化是最昂贵的部分. 为了使得个人计算机也能够执行数百个原子的中等大小KS-DFT计算,本文提出了一种CPU-GPU的混合编程方案,通过调用MATLAB内置的并行计算工具箱来加速在KSSOLV中实现的迭代对角化算法. 比较了KSSOLV-GPU在RTX3090、V100、A100三种GPU上的性能;结果表明,对于包含128个原子的块状硅体系,与串行的CPU计算相比,混合CPU-GPU的编程可以实现约10倍的加速. 特别是其在最新的民用GPU显卡RTX3090上也具有优秀的表现,可以预想到在不远的将来,KSSOLV-GPU借助MATLAB强大的可视化能力与GPU的加速支持可以在一台配备了民用GPU显卡的个人电脑上实现常规的DFT计算分析与可视化,从而降低了材料模拟与计算领域的门槛. 相似文献
7.
《化学物理学报》2021,(5)
KSSO LV(Kohn-Sham Solver)是一款用于求解平面波基组下Kohn-Sham方程(KS-DFT)的MATLAB (Matrix Laboratory)工具箱.在KS-DFT的基态计算中,通常自洽场迭代中Kohn-Sham哈密顿量的对角化是最昂贵的部分.为了使得个人计算机也能够执行数百个原子的中等大小KS-DFT计算,本文提出了一种CPUGPU的混合编程方案,通过调用MATLAB内置的并行计算工具箱来加速在KSSOLV中实现的迭代对角化算法.比较了 KSSOLV-GPU在RTX3090、V100、A100三种GPU上的性能;结果表明,对于包含128个原子的块状硅体系,与串行的CPU计算相比,混合CPU-GPU的编程可以实现约10倍的加速.特别是其在最新的民用GPU显卡RTX3090上也具有优秀的表现,可以预想到在不远的将来,KSSOLV-GPU借助MATLAB强大的可视化能力与GPU的加速支持可以在一台配备了民用GPU显卡的个人电脑上实现常规的D FT计算分析与可视化,从而降低了材料模拟与计算领域的门槛. 相似文献
8.
9.
10.
《核聚变与等离子体物理》2020,(1)
在EAST装置单道运动斯塔克效应(MSE)诊断系统数据处理中,采用CPU(中央处理器)+GPU(图形处理器)异构化模型,实现了数字谐波分析(DHA)算法的并行化加速计算。由CPU完成数据的加载及简单的数学计算,由GPU实现DHA算法的傅里叶正、逆变换及滤波等并行化计算,与串行算法相比,获得了2000倍以上的加速,可以满足MSE诊断实验期间及时数据处理的要求。 相似文献
11.
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB. 相似文献
12.
13.
《工程热物理学报》2017,(6)
采用离散传递法计算目标的红外辐射特征首先要计算角系数,对于复杂目标,角系数计算会耗费大量时间。针对角系数计算中遮挡判断问题,提出了一种不需要求解微元面中心点连线与遮挡面交点的矢量法。开发了基于矢量法的GPU并行程序,并使用一个有理论解的模型验证了程序的正确性,最后针对航空发动机排气系统复杂模型,在一台配置有448个核心的GPU处理器和主频为3.4GHz CPU处理器的工作站上,评估了基于矢量法的GPU程序相对单核CPU程序的加速效果。结果表明;在微元面数量为13670时,矢量法可获得约73倍的加速比,是采用线面求交法获得的加速比的1.4倍。使用离散传递法计算航空发动机排气系统的红外辐射特征时,仅将角系数模块使用GPU并行计算,可减少45%的计算时间。 相似文献
14.
15.
基于格子Boltzmann方法的多孔介质流动模拟GPU加速 总被引:1,自引:0,他引:1
利用NVIDIA CUDA平台,在GPU上结合稀疏存贮算法实现基于格子Boltzmann方法的孔隙尺度多孔介质流动模拟加速,测试该算法相对基本算法的性能.比较该算法在不同GPU上使用LBGK和MRT两种碰撞模型及单、双精度计算时的性能差异.测试结果表明在GPU环境下采用稀疏存贮算法相对基本算法能大幅提高计算速度并节省显存,相对于串行CPU程序加速比达到两个量级.使用较新构架的GPU时,MRT和LBGK碰撞模型在单、双浮点数精度下计算速度相同.而在较上一代的GPU上,计算精度对MRT碰撞模型计算速度影响较大. 相似文献
16.
17.
18.
并行问题和最短路径问题已成为一个热点研究课题,传统的最短路径算法已不能满足数据爆炸式增长的处理需求,尤其当网络规模很大时,所需的计算时间和存储空间也大大的增加;MapReduce模型的出现,带来了一种新的解决方法来解决最短路径;GPU具有强大的并行计算能力和存储带宽,与CPU相比具有明显的优势;通过研究MapReduce模型和GPU执行过程的分析,指出单独基于MapReduce模型的最短路径并行方法存在的问题,降低了系统的性能;论文的创新点是结合MapReduce和GPU形成双并行模型,并行预处理数据,针对最短路径中的数据传输和同步开销,增加数据动态处理器;最后实验从并行算法的性能评价指标平均加速比进行比较,结果表明,双重并行环境下的最短路径的计算,提高了加速比。 相似文献
19.
研究各流域三维流动问题的Boltzmann模型方程计算方法,建立直接求解分子速度分布函数的气体运动论耦合迭代数值格式;基于变量依赖关系、数据通信与并行可扩展性分析,使用区域分解并行化方法,建立气体运动论数值算法并行方案,发展求解各流域三维绕流问题的气体运动论并行算法.拟定高低不同马赫数下来自不同流域的三维球体及返回舱绕流算例,进行高性能Fortran(HPF)大规模并行计算,将计算结果与有关实验数据、相关理论预测等进行比较分析,研究揭示不同流区复杂绕流现象及流动机理.研究表明,所发展的气体运动论并行算法具有很好的并行独立性,基本达到线性加速的并行效果,显示出良好的并行可扩展性. 相似文献
20.
紧束缚近似的含时密度泛函理论在多核和GPU系统下的高效加速实现,并应用于拥有成百上千原子体系的激发态电子结构计算.程序中采用了稀疏矩阵和OpenMP并行化来加速哈密顿矩阵的构建,而最为耗时的基态对角化部分通过双精度的GPU加速来实现.基态的GPU加速能够在保持计算精度的基础上达到8.73倍的加速比.激发态计算采用了基于Krylov子空间迭代算法,OpenMP并行化和GPU加速等方法对激发态计算的大规模TDDFT矩阵进行求解,从而得到本征值和本征矢,大大减少了迭代的次数和最终的求解时间.采用GPU对矩阵矢量相乘进行加速后的Krylov算法能够很快地达到收敛,使得相比于采用常规算法和CPU并行化的程序能够加速206倍.程序在一系列的小分子体系和大分子体系上的计算表明,相比基于第一性原理的CIS方法和含时密度泛函方法,程序能够花费很少的计算量取得合理而精确结果. 相似文献