首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 188 毫秒
1.
KSSO LV(Kohn-Sham Solver)是一款用于求解平面波基组下Kohn-Sham方程(KS-DFT)的MATLAB (Matrix Laboratory)工具箱.在KS-DFT的基态计算中,通常自洽场迭代中Kohn-Sham哈密顿量的对角化是最昂贵的部分.为了使得个人计算机也能够执行数百个原子的中等大小KS-DFT计算,本文提出了一种CPUGPU的混合编程方案,通过调用MATLAB内置的并行计算工具箱来加速在KSSOLV中实现的迭代对角化算法.比较了 KSSOLV-GPU在RTX3090、V100、A100三种GPU上的性能;结果表明,对于包含128个原子的块状硅体系,与串行的CPU计算相比,混合CPU-GPU的编程可以实现约10倍的加速.特别是其在最新的民用GPU显卡RTX3090上也具有优秀的表现,可以预想到在不远的将来,KSSOLV-GPU借助MATLAB强大的可视化能力与GPU的加速支持可以在一台配备了民用GPU显卡的个人电脑上实现常规的D FT计算分析与可视化,从而降低了材料模拟与计算领域的门槛.  相似文献   

2.
紧束缚近似的含时密度泛函理论在多核和GPU系统下的高效加速实现,并应用于拥有成百上千原子体系的激发态电子结构计算.程序中采用了稀疏矩阵和OpenMP并行化来加速哈密顿矩阵的构建,而最为耗时的基态对角化部分通过双精度的GPU加速来实现.基态的GPU加速能够在保持计算精度的基础上达到8.73倍的加速比.激发态计算采用了基于Krylov子空间迭代算法,OpenMP并行化和GPU加速等方法对激发态计算的大规模TDDFT矩阵进行求解,从而得到本征值和本征矢,大大减少了迭代的次数和最终的求解时间.采用GPU对矩阵矢量相乘进行加速后的Krylov算法能够很快地达到收敛,使得相比于采用常规算法和CPU并行化的程序能够加速206倍.程序在一系列的小分子体系和大分子体系上的计算表明,相比基于第一性原理的CIS方法和含时密度泛函方法,程序能够花费很少的计算量取得合理而精确结果.  相似文献   

3.
本文针对通用图形处理器(GPGPU)的特点,对二维传热数值求解算法及三类不同边界条件问题在GPU上的求解进行了分析.图形处理器是一种专用并行处理器,主要用于三维场景渲染加速,其结构和程序设计方式与CPU完全不同,但却比CPU具有更强的浮点运算能力和内存带宽.随着图形处理器可编程特性的发展,它已越来越超出原有的应用范围,向通用计算领域发展,成为一个新的研究领域.采用Jacobi迭代,能够在GPU上实现二维导热方程的求解.本文在已有研究的基础上,实现了二维导热计算的混合边界条件问题在GPU上的求解方法,通过计算时间的比较显示GPU在计算传热学中有良好应用前景.  相似文献   

4.
讨论了集数值计算、可视化图形处理、开放式多功能于一体的语言MATLAB,介绍了利用MATLAB开放式可扩充体系结构特点,开发计算应用物理化学工具箱的意义、设计方案、技术要求与实现过程.  相似文献   

5.
为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU 的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步提高重建速度。  相似文献   

6.
提出利用显卡图形处理单元(Graphics Processing Units, GPU)的并行信息处理能力解决仪器软件在执行海量数据处理、建模、渲染以及交互所面临的开销过大的难题,基于DirectX 11的计算着色器(Compute Shader,CS)实现海量测量数据的处理和建模以及高速推送渲染,建立在GPU内实现海量数据模型上点的拾取模块,以提高仪器可视化测量中的交互执行。实验比对证实了基于GPU的可视化测量仪器软件的高执行效率。研究为挖掘可视化测量仪器硬件能力、合理配置仪器CPU与GPU开销、在整体上提高仪器运行效率提供了一条有价值的技术路径。  相似文献   

7.
曹建伟  徐翔  王友年 《计算物理》2015,32(4):475-481
针对求解椭圆型偏微分方程的雅克比迭代算法和DRM算法进行基于GPU的CUDA加速算法研究.通过两个算例在GTX570显卡上对GPU加速算法进行验证.结果表明,在保证运算精度的前提下,雅克比迭代的GPU加速效率最高,在DOUBLE类型下的加速比可达到14倍左右,效率可达到53%左右;DRM算法在DOUBLE类型下的加速比最高可达到3.8倍,效率达到15%左右.  相似文献   

8.
实现了基于计算统一设备架构(CUDA)的直接模拟Monte Carlo(DSMC)并行算法,改进了原有多图形处理器(GPU)数据之间传输并行算法,数值模拟计算二维Couette流和二维顶盖驱动方腔流,定量比较了CPU、单GPU和多GPU并行计算的结果和计算时间.结果表明单GPU并行计算相对CPU计算的加速效果可以达到10~30倍,双GPU并行计算加速效果可以达到40~60倍,多GPU并行计算的加速效率接近100%,且计算精度能够得到良好保证.  相似文献   

9.
张锐  文立华  校金友 《计算物理》2015,32(3):299-309
提出一种大规模声学边界元法的高效率、高精度GPU并行计算方法.基于Burton-Miller边界积分方程,推导适于GPU的并行计算格式并实现了传统边界元法的GPU加速算法.为提高原型算法的效率,研究GPU数据缓存优化方法.由于GPU的双精度浮点运算能力较低,为了降低数值误差,研究基于单精度浮点运算实现的doublesingle精度算法.数值算例表明,改进的算法实现了最高89.8%的GPU使用效率,且数值精度与直接使用双精度数相当,而计算时间仅为其1/28,显存消耗也仅为其一半.该方法可在普通PC机(8GB内存,NVIDIA Ge Force 660 Ti显卡)上快速完成自由度超过300万的大规模声学边界元分析,计算速度和内存消耗均优于快速边界元法.  相似文献   

10.
李大禹  胡立发  穆全全  宣丽 《光子学报》2008,37(8):1643-1647
利用GPU进行液晶自适应光学波前重构的加速计算.介绍了液晶自适应光学的Zernike模式波前重构算法,详细论述了GPU的通用架构和GPU实现波前重构的方法,给出了GPU与CPU的实验对比结果.结果表明,GPU计算波前重构不但可以准确无误地计算出液晶波前校正器的灰度级分布,计算速度更是传统CPU波前计算的几十倍.  相似文献   

11.
Self-consistency-based Kohn-Sham density functional theory (KS-DFT) electronic structure calculations with Gaussian basis sets are reported for a set of 17 protein-like molecules with geometries obtained from the Protein Data Bank. It is found that in many cases such calculations do not converge due to vanishing HOMO-LUMO gaps. A sequence of polyproline I helix molecules is also studied and it is found that self-consistency calculations using pure functionals fail to converge for helices longer than six proline units. Since the computed gap is strongly correlated to the fraction of Hartree-Fock exchange, test calculations using both pure and hybrid density functionals are reported. The tested methods include the pure functionals BLYP, PBE and LDA, as well as Hartree-Fock and the hybrid functionals BHandHLYP, B3LYP and PBE0. The effect of including solvent molecules in the calculations is studied, and it is found that the inclusion of explicit solvent molecules around the protein fragment in many cases gives a larger gap, but that convergence problems due to vanishing gaps still occur in calculations with pure functionals. In order to achieve converged results, some modeling of the charge distribution of solvent water molecules outside the electronic structure calculation is needed. Representing solvent water molecules by a simple point charge distribution is found to give non-vanishing HOMO-LUMO gaps for the tested protein-like systems also for pure functionals.  相似文献   

12.
We have developed and tested in terms of atomic calculations an exact, analytic and computationally simple procedure for determining the functional derivative of the exchange energy with respect to the density in the implementation of the Kohn–Sham formulation of density functional theory (KS-DFT), providing an analytic, closed-form solution of the self-interaction problem in KS-DFT. We demonstrate the efficacy of our method through ground-state calculations of the exchange potential and energy for atomic He and Be atoms, and comparisons with experiment and the results obtained within the optimized effective potential (OEP) method.  相似文献   

13.
The geometric multigrid method (GMG) is one of the most efficient solving techniques for discrete algebraic systems arising from elliptic partial differential equations. GMG utilizes a hierarchy of grids or discretizations and reduces the error at a number of frequencies simultaneously. Graphics processing units (GPUs) have recently burst onto the scientific computing scene as a technology that has yielded substantial performance and energy-efficiency improvements. A central challenge in implementing GMG on GPUs, though, is that computational work on coarse levels cannot fully utilize the capacity of a GPU. In this work, we perform numerical studies of GMG on CPU-GPU heterogeneous computers. Furthermore, we compare our implementation with an efficient CPU implementation of GMG and with the most popular fast Poisson solver, Fast Fourier Transform, in the cuFFT library developed by NVIDIA.  相似文献   

14.
陈富州  程晨  罗洪刚 《物理学报》1988,68(12):120202-120202
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB.  相似文献   

15.
陈富州  程晨  罗洪刚 《物理学报》1997,68(12):120202-120202
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB.  相似文献   

16.
陈富州  程晨  罗洪刚 《物理学报》2015,68(12):120202-120202
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB.  相似文献   

17.
陈富州  程晨  罗洪刚 《物理学报》1993,68(12):120202-120202
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB.  相似文献   

18.
陈富州  程晨  罗洪刚 《物理学报》1992,68(12):120202-120202
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB.  相似文献   

19.
陈富州  程晨  罗洪刚 《物理学报》2009,68(12):120202-120202
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB.  相似文献   

20.
陈富州  程晨  罗洪刚 《物理学报》2008,68(12):120202-120202
密度矩阵重正化群方法(DMRG)在求解一维强关联格点模型的基态时可以获得较高的精度,在应用于二维或准二维问题时,要达到类似的精度通常需要较大的计算量与存储空间.本文提出一种新的DMRG异构并行策略,可以同时发挥计算机中央处理器(CPU)和图形处理器(GPU)的计算性能.针对最耗时的哈密顿量对角化部分,实现了数据的分布式存储,并且给出了CPU和GPU之间的负载平衡策略.以费米Hubbard模型为例,测试了异构并行程序在不同DMRG保留状态数下的运行表现,并给出了相应的性能基准.应用于4腿梯子时,观测到了高温超导中常见的电荷密度条纹,此时保留状态数达到104,使用的GPU显存小于12 GB.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号