首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于GPU的弹性图像配准方法   总被引:2,自引:0,他引:2  
通常的弹性配准技术因其计算强度大,消耗时间长,难以满足实时应用的要求.新一代图形处理器(GPU)以其用户友好的可编程性和出色的并行计算能力,为解决该问题提供了新的途径.根据GPU的自身特点,以薄板样奈插值作为变换模型,构建了弹性配准计算平台.对二维单模态和多模态的两组图像进行实验,结果表明,相比于CPU,利用GPU可以更为迅速地获得变换参数,对于大尺寸、高分辨率或者多局部形变的图像,GPU的处理速度超出CPU 1个数量级以上.  相似文献   

2.
在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。  相似文献   

3.
由于图形处理器(GPU)最近几年迅速发展,基于GPU的计算作为一个新的研究方向已经引起越来越多人的关注.在综述国内外最新文献的基础上,从介绍GPU的高性能开始,分析GPU本身的特性,介绍GPU的计算模型并分析其流水线结构,阐述如何对GPU进行编程,并初步实现基于GPU的格子Boltzmann方法(LBM)计算.  相似文献   

4.
矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍.  相似文献   

5.
面向CPU+GPU异构计算的SIFT   总被引:1,自引:0,他引:1  
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍.  相似文献   

6.
采用Navier Stokes方程作为烟雾的物理模型方程, 基于图形处理器(GPU)实现了具有复杂光照效果和简单光照效果的烟雾动画实时绘制. 通过体素遍历整数算法加速烟雾的渲染并实现了烟雾的复杂光照. 实验结果对比表明, 复杂光照比简单光照模拟出的烟雾真实感更强. GPU远高于CPU对物理方程的求解速度, 使烟雾模拟实时性更强.  相似文献   

7.
8.
提出一种改进的双通道交互多模型(IMM)算法,使用x和y维残差的边缘分布独立表征预测误差的似然函数,使滤波模型在不同维度与目标运动中分别匹配.首先分析了残差-似然函数-模型概率更新之间的映射关系,证明算法的可行性和有效性,然后引入图形处理器(GPU)并行运算平台,设计了通道级-模型级嵌入式并行方案,提高算法的实时性.仿真表明:相比于传统基于CPU平台下的IMM算法,该算法预测误差与真实噪声似然分布契合度更高、实时性更强、跟踪误差更小.  相似文献   

9.
将深层神经网络(Deep Neural Network)应用于汉语方言种属语音识别.基于优化的QuickNet软件,为方言识别实现了一种有监督的DNN逐层预训练方法.在训练时,从3层开始逐层做有监督的神经网络训练,每增长一层的初始权值包含前一层训练好的部分权值和输出端的随机权值.在得到最大层的初始权值后,再进行传统的BP网络训练.该方法和普通神经网络相比识别率有较大提升,可用于移动互联网标准语音识别人口、方言口音鉴识等领域.  相似文献   

10.
基于显卡的通用计算(GPGPU)是近年来并行计算和快速绘制的热点.格子Boltzmann方法(LBM)作为流体动力学的新方法,其并行性好,常常用于基于物理的流体模拟,且具有适用于复杂边界障碍的特性,但计算较为复杂.利用GPGPU技术来加速LBM的流体计算模型,构建了基于图形处理器(GPU)的流体计算框架,实现了格子Boltzmann计算的D2Q9和D3Q15模型,并用于实时的障碍绕流模拟.  相似文献   

11.
图形处理单元(GPU)已经成为当今的主流计算系统的一个组成部分,现代GPU不仅是一个功能强大的图形引擎,也是一个高度并行的可编程处理器,GPU的峰值运算和内存带宽往往大幅超出其CPU所对应的峰值和内存带宽。本文介绍了基于GPU通用计算框架的JACKET加速MATLAB的计算仿真方法,通过FFT算法得出仿真结果,分析在CPU和GPU运行环境下的GFLOPS和加速比,最后得出基于GPU的MATLAB计算仿真程序运行效率在JACKET的加速下大大提高了。  相似文献   

12.
基于CUDA平台的时域有限差分算法研究   总被引:1,自引:1,他引:0  
文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。  相似文献   

13.
针对卷积神经网络(CNN)在交通标志识别过程中出现的梯度弥散而引起的识别率低的问题,给出了基于改进CNN结构的交通标志识别方法.实验结果表明:该方法能够有效提高识别精度,防止梯度弥散.  相似文献   

14.
基于可编程GPU的快速体绘制技术   总被引:8,自引:0,他引:8  
新一代的图形显示硬件集成了以图形处理器(Graphics Processing Unit,GPU)为核心的可编程顶点着色器和可编程像素着色器,为实现实时体绘制技术提供了硬件加速支持.该文首先分析了可编程GPU的绘制流水线、硬件体系结构和快速绘制原理.最后基于可编程GPU实现了医学体数据的快速最大密度投射体绘制方法.实验表明,采用GPU的可编程像素着色器进行体绘制所需要的时间明显地少与不用GPU的可编程像素着色器进行体绘制所需要的时间.  相似文献   

15.
将深层神经网络(Deep Neural Network)应用于汉语方言种属语音识别.基于优化的QuickNet软件,为方言识别实现了一种有监督的DNN逐层预训练方法.在训练时,从3层开始逐层做有监督的神经网络训练,每增长一层的初始权值包含前一层训练好的部分权值和输出端的随机权值.在得到最大层的初始权值后,再进行传统的BP网络训练.该方法和普通神经网络相比识别率有较大提升,可用于移动互联网标准语音识别入口、方言口音鉴识等领域.  相似文献   

16.
本文利用主分量神经网络分析法(PCANN)和反向传播神经网络,提出了一种具有较强自适应性和较高识别率的说话人识别方法.在此算法过程中,主分量分析法主要是对语音信号的原始特征作分析以得到更好的特征参数;BP神经网络则是作为一个分类器对说话人进行分类.文章将主分量分析与BP神经网络相结合,提高了识别的正确率,增强了系统抗噪声能力,减少了训练时间和计算量,同时简化了网络结构.  相似文献   

17.
针对人工神经网络训练需要极强的计算能力和高效的最优解搜寻方法的问题,提出基于GPU的BFGS拟牛顿神经网络训练算法的并行实现。该并行实现将BFGS算法划分为不同的功能模块,针对不同模块特点采用混合的数据并行模式,充分利用GPU的处理和存储资源,取得较好的加速效果。试验结果显示:在复杂的神经网络结构下,基于GPU的并行神经网络的训练速度相比于基于CPU的实现方法最高提升了80倍;在微波器件的建模测试中,基于GPU的并行神经网络的速度相比于Neuro Modeler软件提升了430倍,训练误差在1%左右。  相似文献   

18.
采用离散元素法(discrete element method, DEM)进行颗粒系统运动仿真时,其模拟计算量大、计算效率低下,所采用的传统中央处理器(central processing unit, CPU)并行计算模型难以实现较大规模模拟。文章提出了一种基于图形处理单元(graphics processing unit, GPU)和统一计算设备架构(compute unified device architecture, CUDA)的并行计算方法;以球磨机的介质运动仿真为例,利用DEM方法结合CUDA并行计算模型,充分利用GPU众核多线程的计算优势,同时将颗粒属性信息存入GPU的常量存储器,减少信息读取的时滞,将筒体和衬板视为圆柱面和平面,简化了筒体与颗粒的接触判断,实现每个线程处理1个颗粒的相关计算,大幅提高计算速度;对颗粒堆积、筒体内2种尺寸颗粒运动进行仿真,并与基于CPU并行计算的结果进行对比。研究结果表明:在同等价格的硬件条件下,该文的方法可以实现10倍以上的加速比;对于含有复杂几何模型的仿真,如多尺寸颗粒和带衬板筒体的仿真,加速比会减少,但仍然可以实现数倍的加速。  相似文献   

19.
基于径向基函数神经网络的飞机目标识别法   总被引:5,自引:0,他引:5  
通过将自适应小波神经网络 (AWNN)中的小波基函数直接替换为 Gauss径向基函数 ,提出了一种适于对目标一维距离像信号直接进行分类的径向基函数神经网络(RBFNN)。对用于信号分类的 RBFNN网络结构的确定、RBFNN的训练以及最终判决规则的确定等问题 ,进行了深入的讨论。对 6个目标不同信噪比下的分类结果表明 ,提出的 RBFNN对距离像信号具有很强的分类能力 ,对于开发更加实用化的目标识别算法显示了很大的潜力  相似文献   

20.
关于CPU+GPU异构计算的研究与分析   总被引:2,自引:0,他引:2  
许桢 《科技信息》2010,(17):I0097-I0097,I0014
在PC技术领域,CPU和GPU始终是相辅相成,在二者已经发展到出现新的瓶颈时,"结合"也许是明智的解决方案,而关于整合CPU和GPU的方案就一直被人们所津津乐道。本文研究了CPU+GPU的异构化计算算法的优势和未来应用的可能性,特别是随着通用计算程序接口(OpenCL)的发布,CPU+GPU的异构化计算这种看起来像是CPU和GPU混合体的出现,相信这将使计算机处理器又将迈上一个新台阶,这种异构化成就的是更加高性能,更加高性价比的处理器,而这必将掀起GPU和CPU革命的高潮。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号