共查询到16条相似文献,搜索用时 72 毫秒
1.
Particle-Mesh Ewald(PME)算法的GPU加速 总被引:1,自引:0,他引:1
讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部分的GPU实现.此方法已成功用于7个不同大小的生物分子体系的模拟计算,达到了7倍左右的加速.该程序可耦合到现有分子动力学模拟软件中,或作为进一步开发的GPU分子动力学程序的一部分,显著加速传统分子动力学程序. 相似文献
2.
此次主要研究了基于GPU的集群渲染系统平台设计;为了提高平台的工作效率、增强集群渲染系统平台的数据传输能力,提出了一种采用DCT变换的方法来加速图像渲染速度;该方法利用DCT变换算法加速图像的实时压缩,加入CPU监控器和任务分配器模块,让GPU和CPU共同承担了绘图和渲染的目的,这样有效地降低处理流程对CPU的占用,实现了三维绘图和特效渲染的加速;为了验证平台的有效性以及图像压缩处理的效果,做了相应的功能验证;对640×480的RCB图像使用上述压缩方法和JPEG标准库在不同压缩设置下进行实验;仿真实验结果表明所提方案具有更高的压缩效率。 相似文献
3.
在应用磁共振血管造影图像进行临床诊断时,临床医生往往需要提取感兴趣区域(Region Of Interest,ROI)的部分血管.这个工作传统上需要手工进行,费时费力.该文提出一种并行的血管分割与追踪算法,利用现代图形处理器(Graphics Processing Unit,GPU)所具备的大规模并行计算能力进行快速的血管分割.首先将三维图像网格化为共面的立方体,并行处理每个立方体,确定立方体中哪些表面有血管通过,以及立方体中哪些体素包含血管.之后再将该结果用于串行的全局分割与血管追踪处理.实验结果表明,利用这种先并行后串行的方法,可以在1 s之内完成全脑血管的分割,分割的结果也更准确. 相似文献
4.
相比于传统同步并行计算策略,在异步并行计算框架下,针对最常用的总变分(TV)最小化重建模型,通过将其转化为不动点迭代问题,并利用异步交替方向法(ADM)进行求解,推导出基于TV最小化模型的异步ADM迭代重建算法,即异步交替方向总变分最小化算法(Async-ADTVM)。利用消息传递接口技术将该算法在图形处理器(GPU)集群上进行测试,进一步提高了原始基于TV最小化模型的迭代重建算法的计算效率。实验表明,该算法在计算求解精度上略优于ADTVM算法,同时在GPU性能存在差异的条件下相比传统多GPU加速策略可获得更高的加速比。 相似文献
5.
为了使液晶大气湍流模拟器具有实时大气模拟能力,在GPU通用计算架构下提出了基于GPU的液晶大气湍流模拟器实时波面生成计算方法。针对液晶湍流模拟器高分辨率、高精度的特点介绍了湍流波面生成计算方法,论述了CUDA通用计算架构。建立基于GPU的波面生成模型,并对该模型进行了并行化优化和共享存储器优化。给出了采用CPU与GPU进行波面生成的实验对比结果。结果表明:采用GPU生成分辨率为256×256,192项Zernike多项式进行波面生成的平均时间为2.5ms,生成速度比CPU少两个量级,满足实时波面生成的要求。 相似文献
6.
为了使液晶大气湍流模拟器具有实时大气模拟能力,在GPU通用计算架构下提出了基于GPU的液晶大气湍流模拟器实时波面生成计算方法。针对液晶湍流模拟器高分辨率、高精度的特点介绍了湍流波面生成计算方法,论述了CUDA通用计算架构。建立基于GPU的波面生成模型,并对该模型进行了并行化优化和共享存储器优化。给出了采用CPU与GPU进行波面生成的实验对比结果。结果表明:采用GPU生成分辨率为256256, 192项Zernike多项式进行波面生成的平均时间为2.5 ms,生成速度比CPU少两个量级,满足实时波面生成的要求。 相似文献
7.
在光电监视系统中,广泛应用于运动目标分割的PBAS(pixel base adaptive segmenter)算法计算复杂、参数量大,难以达到实时分割的要求。针对PBAS算法是对图像中每个像素点进行独立处理,特别适合于GPU并行加速的特点,对其在嵌入式GPU平台Jetson TX2上进行了并行优化实现。在数据存储结构、共享内存使用、随机数产生机制3个方面对该算法进行了优化设计。实验结果表明,对于480×320像素分辨率的中波红外视频序列,该并行优化方法可以达到132 fps的处理速度,满足了实时处理的要求。 相似文献
8.
开发一种基于图形处理器(GPU)加速的质子调强放疗鲁棒优化器,用于减小质子束射程不确定性和靶区定位偏差对质子放疗的影响。建立的鲁棒优化模型使用的目标函数包括9种边界剂量目标,分别是:无偏差情况、2种射程偏差(偏长与偏短)、6种摆位不确定性(前后、侧向、上下入射方向各2种正负偏差)。首先靶区和危及器官的剂量贡献矩阵使用笔形束算法计算得到,然后使用共轭梯度法优化目标函数让其满足约束条件,这两部分均采用GPU加速。头颈部、肺部和前列腺三个临床病例被用来检测本优化器的性能表现。与传统基于计划靶区(PTV)的质子调强放疗计划相比,鲁棒优化器能够优化出对射程不确定性和摆位误差更加不敏感的治疗计划,让靶区实现了高剂量均匀性的同时危及器官(OARs)也得到了更好的保护。经过100次迭代,三个病例的优化时间均在10 s左右。该结果证明了基于GPU加速的质子调强放疗鲁棒优化器能够在短时间内设计出高鲁棒性的质子治疗计划,从而提高质子放射治疗的可靠性。This paper describes the development of a fast robust optimization tool that takes advantage of the GPU technologies. The objective function of the robust optimization model considered nine boundary dose distributions--two for ±range uncertainties, six for ±set-up uncertainties along anteroposterior (A-P), lateral (R-L) and superior{inferior (S-I) directions, and one for nominal situation. The nine boundary influence matrices were calculated using an in-house dose engine for proton pencil beams of a finite size, while the conjugate gradient method was applied to minimize the objective function. The GPU platform was adopted to accelerate both the proton dose calculation algorithm and the conjugate gradient method. Three clinical cases-one head and neck cancer case, one lung cancer case and one prostate cancer case-were investigated to demonstrate the clinical significance of the proposed robust optimizer. Compared with conventional planning target volume (PTV) based IMPT plans, the proposed method was found to be conducive in designing robust treatment plans that were less sensitive to range and setup uncertainties. The three cases showed that targets could achieve high dose uniformity while organs at risks (OARs) were under better protection against setup and range errors. The run times for the three cases were around 10 s for 100 iterations. The GPU-based fast robust optimizer developed in this study can serve to improve the reliability of traditional proton treatment planning by achieving a high level of robustness in a much shorter time. 相似文献
9.
Canny算法在PC机上的执行速度较慢,这极大地限制了其实用性。本文在前人的研究基础上对算法进行更深的优化和改进。首先在VS2012开发环境下利用数字图像处理技术对原算法进行原理上的改进,再利用GPU流处理器数量众多的优势以及强大的多线程并发执行能力对Canny算法进行并行加速。在500 pixel×500 pixel的图片上,对本文算法和原Canny算法进行了实验验证。实验结果表明,在4 096 pixel×4 096 pixel大小的图片上采用本文的GPU移植算法处理后,执行速度从80 ms降到了6 ms以内。在不影响边缘检测效果的前提下极大地提高了算法的实用性。 相似文献
10.
11.
12.
并行问题和最短路径问题已成为一个热点研究课题,传统的最短路径算法已不能满足数据爆炸式增长的处理需求,尤其当网络规模很大时,所需的计算时间和存储空间也大大的增加;MapReduce模型的出现,带来了一种新的解决方法来解决最短路径;GPU具有强大的并行计算能力和存储带宽,与CPU相比具有明显的优势;通过研究MapReduce模型和GPU执行过程的分析,指出单独基于MapReduce模型的最短路径并行方法存在的问题,降低了系统的性能;论文的创新点是结合MapReduce和GPU形成双并行模型,并行预处理数据,针对最短路径中的数据传输和同步开销,增加数据动态处理器;最后实验从并行算法的性能评价指标平均加速比进行比较,结果表明,双重并行环境下的最短路径的计算,提高了加速比。 相似文献
13.
14.
15.
基于GPU和分块技术的巨幅影像快速傅里叶变换算法研究(英文) 总被引:1,自引:0,他引:1
快速傅里叶变换(FFT)是遥感影像处理的基础方法,随着高光谱、高空间和高时间分辨率遥感影像获取能力的提升,如何利用快速傅里叶变换技术快速有效地处理巨幅遥感影像是当前遥感影像处理技术中的重要环节和研究热点。傅里叶变换算法FFT是基本的图像处理算法之一,该算法可进行遥感影像的条带噪声去除、影像压缩和影像配准处理等多种用途。CUFFT函数库是NVIDIA公司提供的基于GPU的FFT算法库,FFTW是由MIT科学实验室计算机组在PC平台上开发的基于CPU的FFT算法,是目前在基于CPU的运行速度最快的FFT算法函数库,这两种实现共有的问题是当可用内存或显存的容量小于图像容量时,就会出现内存或显存溢出。针对这种问题,提出了一种基于GPU和分块技术的巨幅遥感影像快速傅里叶变换(huge remote fast Fourier transform,HRFFT)算法。通过对CUDA的CUFFT函数库中的FFT算法进行改进,解决了巨幅图像内存或显存溢出的问题,并结合HJ-1A卫星的CCD影像,通过实验与其他算法进行了对比,证明了该方法的合理性。在实际应用中,利用本文提出的HRFFT算法,改善了影像处理的效果,提高了遥感影像的质量,同时加快了影像处理的速度,节省了计算时间,取得了较好的效果。 相似文献