期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

范鹏程张卫国刘万刚张卫黄维东刘国栋徐晓枫《应用光学》2020,41(5):1089-1095

红外弱小目标的目标像素少，目标对比度低，成像帧率高，图像数据量大，检测实时性强。针对红外弱小目标检测算法适合于GPU并行计算的特点，对其在嵌入式GPU平台Jetson TX2上进行了并行优化实现。在检测算法设计、内存访问、调试优化3个方面进行了优化设计。实验结果表明，对640×480像素分辨率的红外视频，并行优化后的目标检测算法能够在10 ms内完成计算，满足实时处理需求。相似文献

2.

基于GPU的液晶大气湍流模拟器波面生成的并行实现

下载免费PDF全文

倪小龙刘智孔悦刘丹《强激光与粒子束》2014,26(3):031011-71

为了使液晶大气湍流模拟器具有实时大气模拟能力,在GPU通用计算架构下提出了基于GPU的液晶大气湍流模拟器实时波面生成计算方法。针对液晶湍流模拟器高分辨率、高精度的特点介绍了湍流波面生成计算方法,论述了CUDA通用计算架构。建立基于GPU的波面生成模型,并对该模型进行了并行化优化和共享存储器优化。给出了采用CPU与GPU进行波面生成的实验对比结果。结果表明:采用GPU生成分辨率为256×256,192项Zernike多项式进行波面生成的平均时间为2.5ms,生成速度比CPU少两个量级,满足实时波面生成的要求。相似文献

3.

基于GPU加速的磁共振血管造影图像的并行分割与追踪算法

张雪莹王成龙谢海滨张成秀马超陆建平杨光《波谱学杂志》2016,33(4):570-580

在应用磁共振血管造影图像进行临床诊断时,临床医生往往需要提取感兴趣区域(Region Of Interest,ROI)的部分血管.这个工作传统上需要手工进行,费时费力.该文提出一种并行的血管分割与追踪算法,利用现代图形处理器(Graphics Processing Unit,GPU)所具备的大规模并行计算能力进行快速的血管分割.首先将三维图像网格化为共面的立方体,并行处理每个立方体,确定立方体中哪些表面有血管通过,以及立方体中哪些体素包含血管.之后再将该结果用于串行的全局分割与血管追踪处理.实验结果表明,利用这种先并行后串行的方法,可以在1 s之内完成全脑血管的分割,分割的结果也更准确. 相似文献

4.

EAST运动斯塔克效应诊断数据处理中GPU并行化加速算法的研究

《核聚变与等离子体物理》2020,(1)

在EAST装置单道运动斯塔克效应(MSE)诊断系统数据处理中,采用CPU(中央处理器)+GPU(图形处理器)异构化模型,实现了数字谐波分析(DHA)算法的并行化加速计算。由CPU完成数据的加载及简单的数学计算,由GPU实现DHA算法的傅里叶正、逆变换及滤波等并行化计算,与串行算法相比,获得了2000倍以上的加速,可以满足MSE诊断实验期间及时数据处理的要求。相似文献

5.

EAST运动斯塔克效应诊断数据处理中GPU并行化加速算法的研究

智玉琴黄耀符佳陈颖王枫余青江李颖颖吴振伟万宝年吕波《核聚变与等离子体物理》2020,40(1):23-27

在EAST装置单道运动斯塔克效应(MSE)诊断系统数据处理中，采用CPU(中央处理器)+GPU(图形处理器)异构化模型，实现了数字谐波分析(DHA)算法的并行化加速计算。由CPU完成数据的加载及简单的数学计算，由GPU实现DHA算法的傅里叶正、逆变换及滤波等并行化计算，与串行算法相比，获得了2000倍以上的加速，可以满足MSE诊断实验期间及时数据处理的要求。相似文献

6.

耗散粒子动力学GPU并行计算研究 总被引：1，自引：0，他引：1

下载免费PDF全文

林晨森陈硕李启良杨志刚《物理学报》2014,63(10):104702-104702

研究了耗散粒子动力学基于计算统一设备架构的图形处理器(GPU)并行计算的实施.对其中涉及的算法映射模型、Cell-List法数组的并行化更新、随机数生成、存储器访问优化、负载平衡等进行了详细的讨论.进一步模拟了Poiseuille流动和突扩突缩流动,从而验证了GPU计算结果的正确性.计算结果表明,相对于基于中央处理器的串行计算,在耗散粒子动力学中实施GPU并行计算可以获得约20倍的加速比. 相似文献

7.

一种基于新型查表方法的统一计算设备架构并行计算全息算法

蒋晓瑜丛彬裴闯闫兴鹏赵锴《光学学报》2015,(2):88-95

为解决点源法计算全息速度较慢的问题,提出了一种新的查表算法,命名为三角函数查表法(T-LUT算法)。该算法是基于点源法基本的数学公式,通过一系列数学近似与恒等变换,生成了一种纯相位查找表,该查找表具有三维特性,并具有生成速度快、精度高、占用内存少等特点,克服了点源法重复计算相位的缺点。同时采用统一计算设备架构(CUDA)并行计算在图形处理器(GPU)上加以实现,并进行了三次并行优化。在算法的验证与对比实验中,采用单显卡(GPU显卡)实现T-LUT算法,在不牺牲全息图再现像质量的前提下,成功地将点源法计算全息的速度大幅度提升。实验发现在不同的物空间采样点数量的情况下,速度相对于点源法GPU运算提升30倍至近千倍不等。相似文献

8.

Canny算法的GPU并行加速

下载免费PDF全文

张帆韩树奎张立国王文胜《中国光学》2017,10(6):737-743

Canny算法在PC机上的执行速度较慢,这极大地限制了其实用性。本文在前人的研究基础上对算法进行更深的优化和改进。首先在VS2012开发环境下利用数字图像处理技术对原算法进行原理上的改进,再利用GPU流处理器数量众多的优势以及强大的多线程并发执行能力对Canny算法进行并行加速。在500 pixel×500 pixel的图片上,对本文算法和原Canny算法进行了实验验证。实验结果表明,在4 096 pixel×4 096 pixel大小的图片上采用本文的GPU移植算法处理后,执行速度从80 ms降到了6 ms以内。在不影响边缘检测效果的前提下极大地提高了算法的实用性。相似文献

9.

基于变分模型的单目视觉三维重建方法

贾松敏王可李秀智徐涛《光学学报》2014,(4):172-178

提出一种基于单目视觉的致密场景重建方法,以实现对环境快速,准确地三维立体化建模。该方法针对自由式手持单目相机,在并行跟踪与地图创建(PTAM)算法框架下准确地实现相机的自定位。在此基础上,选取关键帧处图像序列,构造变分模式下深度估计模型;运用离散空间采样法获取初始深度图,借助于原始对偶算法实现该深度模型的优化,并结合相机投影模型估计待求解场景的三维模型。在统一计算设备架构(CUDA)下,利用图形处理器(GPU)进一步实现了深度估计算法的并行优化,显著提高了算法处理的实时性。真实场景下实验结果验证了所提算法的有效性与可行性。相似文献

10.

激波与火焰面相互作用数值模拟的GPU加速 总被引：1，自引：0，他引：1

蒋华董刚陈霄《计算物理》2016,33(1):23-29

为考察计算机图形处理器（GPU）在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传统的基于信息传递的MPI 8线程并行计算相比,GPU并行模拟结果与MPI并行模拟结果相同;两种计算方法的计算时间均随网格数量的增加呈线性增长趋势,但GPU的计算时间比MPI明显降低.当网格数量较小时（1.6×10⁴）,GPU计算得到的单个时间步长平均时间的加速比为8.6;随着网格数量的增加,GPU的加速比有所下降,但对较大规模的网格数量（4.2×10⁶）,GPU的加速比仍可达到5.9.基于GPU的异构并行加速算法为可压缩反应流的高分辨率大规模计算提供了较好的解决途径. 相似文献

11.

GPU-based high-precision real-time radiometric rendering for IR scene generation

《Infrared Physics & Technology》2014

Aiming at the problem that traditional infrared scene real-time radiometric rendering method leads to greater calculation error for securing real-time purpose, this article studies the IR rendering comprehensive optimization method, which secures real-time performance as well as calculation accuracy. Firstly, based on the effective average value principle, the spectrum coupling thermal emission and reflected radiations in the spectral radiometric equation are decomposed into physical quantities, and the spectral radiometric equation is improved to become a simpler calculation between “primer” radiance terms and effective average factors. Secondly, the parameter processing method is proposed to cope with the situation when index parameters of effective average factors exceed the maximum dimensionalities of graphics processing unit (GPU) look-up-table (LUT); and pre-calculation method is applied to promote the real-time evaluation efficiency of the physical quantities in the radiometric equation. Finally, concurrent computation of radiometric equation is achieved with GPU IR scene generation software and the precise and real-time rendering of three-dimensional IR scene is realized. 相似文献

12.

基于GPU的高性能并行计算技术

姚旺胡欣刘飞王红霞刘文文《应用声学》2014,22(12)

针对NVIDIA CUDA(Compute Unified Device Architecture)架构的第三代GPU高性能计算技术开展了研究,利用具有448个处理核心的NVIDIA GPU GTX470实现了脉冲压缩雷达的基本数据处理算法,包括脉冲压缩算法与相参积累算法。根据GPU的并行处理架构,将脉冲压缩、相参积累完成了并行算法优化设计,有效的将算法映射到GPU GTX470的448个处理核心中,完成了脉冲压缩雷达基本处理算法的GPU并行处理实现,并针对处理结果效果与实时性进行了评估。相似文献

13.

众核处理架构在水下航行器相位编码脉冲回波检测中的应用 总被引：1，自引：0，他引：1

下载免费PDF全文

詹飞马晓川杨力《声学学报》2018,43(4):445-452

针对宽带编码脉冲、多输入多输出等新型目标探测体制发展带来的运算量和数据存储需求剧增的问题,根据水下航行器相位编码脉冲回波检测算法的数据级并行特点,提出应用图形处理器(Graphics Processing Unit,GPU)众核处理架构,并从任务分配策略、数据处理流程、GPU硬件资源利用率和存储器访问等角度考虑,设计了算法在GPU上的并行实现框架。利用湖试数据测试了桌面级GPU平台、嵌入式GPU平台与基于多核数字信号处理器(Digital Signal Processor,DSP)的传统航行器信号处理平台的性能,与多核DSP平台相比,嵌入式GPU平台在功耗、运算性能等方面更有优势。研究结果表明采用嵌入式GPU平台可大幅提升每瓦特性能指标并简化系统设计,能满足新型航行器探测系统大数据量、低功耗和实时性的应用需求。相似文献

14.

Fast extended focused imaging in digital holography using a graphics processing unit

Wang L Zhao J Di J Jiang H 《Optics letters》2011,36(9):1620-1622

We present a simple and effective method for reconstructing extended focused images in digital holography using a graphics processing unit (GPU). The Fresnel transform method is simplified by an algorithm named fast Fourier transform pruning with frequency shift. Then the pixel size consistency problem is solved by coordinate transformation and combining the subpixel resampling and the fast Fourier transform pruning with frequency shift. With the assistance of the GPU, we implemented an improved parallel version of this method, which obtained about a 300-500-fold speedup compared with central processing unit codes. 相似文献

15.

Importance of explicit vectorization for CPU and GPU software performance

Neil G. Dickson Kamran Karimi Firas Hamze 《Journal of computational physics》2011,230(13):5383-5398

Much of the current focus in high-performance computing is on multi-threading, multi-computing, and graphics processing unit (GPU) computing. However, vectorization and non-parallel optimization techniques, which can often be employed additionally, are less frequently discussed. In this paper, we present an analysis of several optimizations done on both central processing unit (CPU) and GPU implementations of a particular computationally intensive Metropolis Monte Carlo algorithm. Explicit vectorization on the CPU and the equivalent, explicit memory coalescing, on the GPU are found to be critical to achieving good performance of this algorithm in both environments. The fully-optimized CPU version achieves a 9× to 12× speedup over the original CPU version, in addition to speedup from multi-threading. This is 2× faster than the fully-optimized GPU version, indicating the importance of optimizing CPU implementations. 相似文献

16.

基于结构光的植保无人机障碍物在线检测系统

下载免费PDF全文

陈念吴开华王文杰《应用光学》2018,39(3):343-348

为了确保植保无人机在飞行作业过程中的安全,要求植保无人机具有自动避障能力,为此提出了基于结构光视觉的障碍物检测方法。为提高障碍物检测的实时性,重点研究了基于嵌入式平台的植保无人机障碍物检测系统,通过将障碍物图像处理算法的并行计算映射到GPU硬件资源上完成,大大提高了算法的运行效率。实验表明,在保证障碍物轮廓线完整的前提下,通过对比CPU和CPU-GPU实现处理算法,障碍物检测系统获得了约46.15的加速比,采集及处理时间约为48.985 ms。该系统具有处理效果明显与实时性好等优点,为植保无人机的实时障碍物检测和进一步实现自动避障奠定了基础。相似文献

17.

基于逐行处理的高光谱遥感异常快速检测方法

付立婷邓河刘春红《光子学报》2017,46(4)

针对基于逐像元处理的因果实时异常(Causal Real-time Relationship Reed-X Detector,CR-RRXD)检测算法计算量大,以及基于逐像元方式边检测边成像显示的时间过长而不能满足快速处理要求的缺陷,提出了一种基于逐行处理的CR-R-RXD检测算法.与基于逐像元处理的CR-R-RXD检测算法相比,该方法将高光谱图像整行像元向量作为输入,即处理一行高光谱数据只需计算一次,极大地减少了计算次数.实验结果表明,与R-RXD和基于逐像元处理的CR-R-RXD算法相比,本文算法可在获得与R-RXD算法几乎相同的检测准确度的情况下,实现快速实时处理,其检测准确度相较于基于逐像元处理的CR-R-RXD算法有所提高,且算法检测时间大大缩短,增强了算法的时效性. 相似文献

18.

Fast parallel Grad–Shafranov solver for real-time equilibrium reconstruction in EAST tokamak using graphic processing unit

下载免费PDF全文

黄耀肖炳甲罗正平《中国物理 B》2017,26(8):85204-085204

To achieve real-time control of tokamak plasmas, the equilibrium reconstruction has to be completed sufficiently quickly. For the case of an EAST tokamak experiment, real-time equilibrium reconstruction is generally required to provide results within 1ms. A graphic processing unit(GPU) parallel Grad–Shafranov(G-S) solver is developed in P-EFIT code,which is built with the CUDA? architecture to take advantage of massively parallel GPU cores and significantly accelerate the computation. Optimization and implementation of numerical algorithms for a block tri-diagonal linear system are presented. The solver can complete a calculation within 16 μs with 65×65 grid size and 27 μs with 129×129 grid size, and this solver supports that P-EFIT can fulfill the time feasibility for real-time plasma control with both grid sizes. 相似文献