首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 72 毫秒
1.
Particle-Mesh Ewald(PME)算法的GPU加速   总被引:1,自引:0,他引:1  
徐骥  葛蔚  任瑛  李静海 《计算物理》2010,27(4):548-554
讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部分的GPU实现.此方法已成功用于7个不同大小的生物分子体系的模拟计算,达到了7倍左右的加速.该程序可耦合到现有分子动力学模拟软件中,或作为进一步开发的GPU分子动力学程序的一部分,显著加速传统分子动力学程序.  相似文献   

2.
于艳东 《应用声学》2014,22(5):1516-1518
此次主要研究了基于GPU的集群渲染系统平台设计;为了提高平台的工作效率、增强集群渲染系统平台的数据传输能力,提出了一种采用DCT变换的方法来加速图像渲染速度;该方法利用DCT变换算法加速图像的实时压缩,加入CPU监控器和任务分配器模块,让GPU和CPU共同承担了绘图和渲染的目的,这样有效地降低处理流程对CPU的占用,实现了三维绘图和特效渲染的加速;为了验证平台的有效性以及图像压缩处理的效果,做了相应的功能验证;对640×480的RCB图像使用上述压缩方法和JPEG标准库在不同压缩设置下进行实验;仿真实验结果表明所提方案具有更高的压缩效率。  相似文献   

3.
在应用磁共振血管造影图像进行临床诊断时,临床医生往往需要提取感兴趣区域(Region Of Interest,ROI)的部分血管.这个工作传统上需要手工进行,费时费力.该文提出一种并行的血管分割与追踪算法,利用现代图形处理器(Graphics Processing Unit,GPU)所具备的大规模并行计算能力进行快速的血管分割.首先将三维图像网格化为共面的立方体,并行处理每个立方体,确定立方体中哪些表面有血管通过,以及立方体中哪些体素包含血管.之后再将该结果用于串行的全局分割与血管追踪处理.实验结果表明,利用这种先并行后串行的方法,可以在1 s之内完成全脑血管的分割,分割的结果也更准确.  相似文献   

4.
相比于传统同步并行计算策略,在异步并行计算框架下,针对最常用的总变分(TV)最小化重建模型,通过将其转化为不动点迭代问题,并利用异步交替方向法(ADM)进行求解,推导出基于TV最小化模型的异步ADM迭代重建算法,即异步交替方向总变分最小化算法(Async-ADTVM)。利用消息传递接口技术将该算法在图形处理器(GPU)集群上进行测试,进一步提高了原始基于TV最小化模型的迭代重建算法的计算效率。实验表明,该算法在计算求解精度上略优于ADTVM算法,同时在GPU性能存在差异的条件下相比传统多GPU加速策略可获得更高的加速比。  相似文献   

5.
为了使液晶大气湍流模拟器具有实时大气模拟能力,在GPU通用计算架构下提出了基于GPU的液晶大气湍流模拟器实时波面生成计算方法。针对液晶湍流模拟器高分辨率、高精度的特点介绍了湍流波面生成计算方法,论述了CUDA通用计算架构。建立基于GPU的波面生成模型,并对该模型进行了并行化优化和共享存储器优化。给出了采用CPU与GPU进行波面生成的实验对比结果。结果表明:采用GPU生成分辨率为256×256,192项Zernike多项式进行波面生成的平均时间为2.5ms,生成速度比CPU少两个量级,满足实时波面生成的要求。  相似文献   

6.
为了使液晶大气湍流模拟器具有实时大气模拟能力,在GPU通用计算架构下提出了基于GPU的液晶大气湍流模拟器实时波面生成计算方法。针对液晶湍流模拟器高分辨率、高精度的特点介绍了湍流波面生成计算方法,论述了CUDA通用计算架构。建立基于GPU的波面生成模型,并对该模型进行了并行化优化和共享存储器优化。给出了采用CPU与GPU进行波面生成的实验对比结果。结果表明:采用GPU生成分辨率为256256, 192项Zernike多项式进行波面生成的平均时间为2.5 ms,生成速度比CPU少两个量级,满足实时波面生成的要求。  相似文献   

7.
张刚  马震环  雷涛  崔毅  张三喜 《应用光学》2019,40(6):1067-1076
在光电监视系统中,广泛应用于运动目标分割的PBAS(pixel base adaptive segmenter)算法计算复杂、参数量大,难以达到实时分割的要求。针对PBAS算法是对图像中每个像素点进行独立处理,特别适合于GPU并行加速的特点,对其在嵌入式GPU平台Jetson TX2上进行了并行优化实现。在数据存储结构、共享内存使用、随机数产生机制3个方面对该算法进行了优化设计。实验结果表明,对于480×320像素分辨率的中波红外视频序列,该并行优化方法可以达到132 fps的处理速度,满足了实时处理的要求。  相似文献   

8.
开发一种基于图形处理器(GPU)加速的质子调强放疗鲁棒优化器,用于减小质子束射程不确定性和靶区定位偏差对质子放疗的影响。建立的鲁棒优化模型使用的目标函数包括9种边界剂量目标,分别是:无偏差情况、2种射程偏差(偏长与偏短)、6种摆位不确定性(前后、侧向、上下入射方向各2种正负偏差)。首先靶区和危及器官的剂量贡献矩阵使用笔形束算法计算得到,然后使用共轭梯度法优化目标函数让其满足约束条件,这两部分均采用GPU加速。头颈部、肺部和前列腺三个临床病例被用来检测本优化器的性能表现。与传统基于计划靶区(PTV)的质子调强放疗计划相比,鲁棒优化器能够优化出对射程不确定性和摆位误差更加不敏感的治疗计划,让靶区实现了高剂量均匀性的同时危及器官(OARs)也得到了更好的保护。经过100次迭代,三个病例的优化时间均在10 s左右。该结果证明了基于GPU加速的质子调强放疗鲁棒优化器能够在短时间内设计出高鲁棒性的质子治疗计划,从而提高质子放射治疗的可靠性。This paper describes the development of a fast robust optimization tool that takes advantage of the GPU technologies. The objective function of the robust optimization model considered nine boundary dose distributions--two for ±range uncertainties, six for ±set-up uncertainties along anteroposterior (A-P), lateral (R-L) and superior{inferior (S-I) directions, and one for nominal situation. The nine boundary influence matrices were calculated using an in-house dose engine for proton pencil beams of a finite size, while the conjugate gradient method was applied to minimize the objective function. The GPU platform was adopted to accelerate both the proton dose calculation algorithm and the conjugate gradient method. Three clinical cases-one head and neck cancer case, one lung cancer case and one prostate cancer case-were investigated to demonstrate the clinical significance of the proposed robust optimizer. Compared with conventional planning target volume (PTV) based IMPT plans, the proposed method was found to be conducive in designing robust treatment plans that were less sensitive to range and setup uncertainties. The three cases showed that targets could achieve high dose uniformity while organs at risks (OARs) were under better protection against setup and range errors. The run times for the three cases were around 10 s for 100 iterations. The GPU-based fast robust optimizer developed in this study can serve to improve the reliability of traditional proton treatment planning by achieving a high level of robustness in a much shorter time.  相似文献   

9.
Canny算法在PC机上的执行速度较慢,这极大地限制了其实用性。本文在前人的研究基础上对算法进行更深的优化和改进。首先在VS2012开发环境下利用数字图像处理技术对原算法进行原理上的改进,再利用GPU流处理器数量众多的优势以及强大的多线程并发执行能力对Canny算法进行并行加速。在500 pixel×500 pixel的图片上,对本文算法和原Canny算法进行了实验验证。实验结果表明,在4 096 pixel×4 096 pixel大小的图片上采用本文的GPU移植算法处理后,执行速度从80 ms降到了6 ms以内。在不影响边缘检测效果的前提下极大地提高了算法的实用性。  相似文献   

10.
在EAST装置单道运动斯塔克效应(MSE)诊断系统数据处理中,采用CPU(中央处理器)+GPU(图形处理器)异构化模型,实现了数字谐波分析(DHA)算法的并行化加速计算。由CPU完成数据的加载及简单的数学计算,由GPU实现DHA算法的傅里叶正、逆变换及滤波等并行化计算,与串行算法相比,获得了2000倍以上的加速,可以满足MSE诊断实验期间及时数据处理的要求。  相似文献   

11.
曹建伟  徐翔  王友年 《计算物理》2015,32(4):475-481
针对求解椭圆型偏微分方程的雅克比迭代算法和DRM算法进行基于GPU的CUDA加速算法研究.通过两个算例在GTX570显卡上对GPU加速算法进行验证.结果表明,在保证运算精度的前提下,雅克比迭代的GPU加速效率最高,在DOUBLE类型下的加速比可达到14倍左右,效率可达到53%左右;DRM算法在DOUBLE类型下的加速比最高可达到3.8倍,效率达到15%左右.  相似文献   

12.
孙玉强  李银银  顾玉宛 《应用声学》2017,25(3):195-196, 230
并行问题和最短路径问题已成为一个热点研究课题,传统的最短路径算法已不能满足数据爆炸式增长的处理需求,尤其当网络规模很大时,所需的计算时间和存储空间也大大的增加;MapReduce模型的出现,带来了一种新的解决方法来解决最短路径;GPU具有强大的并行计算能力和存储带宽,与CPU相比具有明显的优势;通过研究MapReduce模型和GPU执行过程的分析,指出单独基于MapReduce模型的最短路径并行方法存在的问题,降低了系统的性能;论文的创新点是结合MapReduce和GPU形成双并行模型,并行预处理数据,针对最短路径中的数据传输和同步开销,增加数据动态处理器;最后实验从并行算法的性能评价指标平均加速比进行比较,结果表明,双重并行环境下的最短路径的计算,提高了加速比。  相似文献   

13.
祁美玲  杨琼  王苍龙  田园  杨磊 《计算物理》2017,34(4):461-467
基于NIVIDIA公司的CUDA架构对结构材料辐照损伤的分子动力学程序在单个GPU上进行并行化,并对影响程序运行效率的相关因素进行分析和测试.经过一系列优化,当粒子数为两百万时,对比单CPU的执行时间,优化后的GPU程序其双精度加速比可达112倍,单精度加速比达到了三百倍,为后续扩展多GPU结构材料辐照损伤的分子动力学程序奠定基础.  相似文献   

14.
15.
快速傅里叶变换(FFT)是遥感影像处理的基础方法,随着高光谱、高空间和高时间分辨率遥感影像获取能力的提升,如何利用快速傅里叶变换技术快速有效地处理巨幅遥感影像是当前遥感影像处理技术中的重要环节和研究热点。傅里叶变换算法FFT是基本的图像处理算法之一,该算法可进行遥感影像的条带噪声去除、影像压缩和影像配准处理等多种用途。CUFFT函数库是NVIDIA公司提供的基于GPU的FFT算法库,FFTW是由MIT科学实验室计算机组在PC平台上开发的基于CPU的FFT算法,是目前在基于CPU的运行速度最快的FFT算法函数库,这两种实现共有的问题是当可用内存或显存的容量小于图像容量时,就会出现内存或显存溢出。针对这种问题,提出了一种基于GPU和分块技术的巨幅遥感影像快速傅里叶变换(huge remote fast Fourier transform,HRFFT)算法。通过对CUDA的CUFFT函数库中的FFT算法进行改进,解决了巨幅图像内存或显存溢出的问题,并结合HJ-1A卫星的CCD影像,通过实验与其他算法进行了对比,证明了该方法的合理性。在实际应用中,利用本文提出的HRFFT算法,改善了影像处理的效果,提高了遥感影像的质量,同时加快了影像处理的速度,节省了计算时间,取得了较好的效果。  相似文献   

16.
李大禹  胡立发  穆全全  宣丽 《光子学报》2008,37(8):1643-1647
利用GPU进行液晶自适应光学波前重构的加速计算.介绍了液晶自适应光学的Zernike模式波前重构算法,详细论述了GPU的通用架构和GPU实现波前重构的方法,给出了GPU与CPU的实验对比结果.结果表明,GPU计算波前重构不但可以准确无误地计算出液晶波前校正器的灰度级分布,计算速度更是传统CPU波前计算的几十倍.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号