首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
可编程图形硬件综述   总被引:1,自引:0,他引:1  
集成可编程能力是图形硬件发展历程上的一次革命,它使得图形硬件能够适用于多种不同的应用.本文首先介绍了可编程图形硬件的发展,然后分析了它的流水线结构,最后介绍了几种最新的编程语言.  相似文献   

2.
凹凸贴图是一种使得物体光滑的表面看起来凹凸不平的计算机绘图技术,利用计算机图形学知识探讨了凹凸贴图的生成原理,给出了解决表面不平的实现算法,可以应用在开发各种计算机游戏和动画程序中.  相似文献   

3.
利用CT进行三维重建需要高迭几十亿字节的数据,处理这样的海量数据对PC机或普通图形工作站的CPU来说都将是十分耗时的,重建速度仍是制约三维锥束CT应用的主要因素之一。图形处理器(Graphics Processing Unit,GPU)由于其所具有的超长流水线和高度并行化,不仅在图形处理领域得到广泛应用,而且被用来进行通用计算任务。由于计算机图形学中的投影过程和CT的数据生成本质是一致的,基于GPU进行CT重建是提高速度的有效途径,本文首先针对GPU的特点进行概述,之后着重介绍了在GPU上实现CT重建的原理和方法,同时分析了GPU能够实现加速的原因。  相似文献   

4.
为降低粒子群优化算法(PSO: Particle Swarm Optimization)时间和空间的复杂度随问题规模的增大而越来越高的问题, 对图形处理器(GPU: Graphic Processing Unit)用于并行计算的方法进行了分析, 利用GPU的并行特性, 实现了粒子群优化算法路径搜索过程的并行化。测试函数实验结果证明, GPU平台较CPU模式下的计算, 其搜索速率有明显提高。  相似文献   

5.
ARM GPU的多任务调度设计与实现   总被引:1,自引:0,他引:1  
针对现有GPU任务调度系统在多任务环境下不能保证图形任务响应时间的问题,提出基于分类和多优先级队列(CPMQ)的调度方案,并在ARM的嵌入式GPU上实现验证。该方案中,将GPU的多任务划分为图形任务、通用计算任务和实时图形3类任务并分别建立队列排队,其中图形任务和通用计算任务按照优先级在各自队列中排队,实时图形按照任务截止时间排队。面向多队列的任务调度,优先从实时任务队列中选择任务,并按照加权公平算法分别在图形任务队列和通用计算队列中选择任务。实验结果表明:相比于ARM GPU的原有调度系统,CPMQ在不显著增加通用计算任务的执行时间和调度开销的情况下,将实时图形任务的帧率提升了5%~20%。  相似文献   

6.
基于计算核和图形接口能够支持GPU 通用计算的特点,给出了一个规范的四层编程模型.本文主要研究了在系统抽象层中对计算核和图形接口层的图形操作抽象成通用计算的过程,其目的是屏蔽图形操作的痕迹,使在应用层执行屏蔽图形绘制程序,图形接口能够被抽象成GPU进行通用计算操作,提高面向GPGPU绘制语言的可描述性和规范化,并通过检测模块的设置检测运行环境,以提高效率.  相似文献   

7.
对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高.  相似文献   

8.
开发了基于图形处理器(GPU)的Cholesky分解并行算法,应用于模态计算程序中,对计算进行加速.算例测试表明该算法相对串行算法计算性能大幅提升,且加速比随矩阵阶数增加而增加,与串行程序相比加速比可达到19.6,此时GPU浮点运算能力达到298Gflops.GPU程序固有频率计算结果与Abaqus计算结果的误差在2%以内,具有足够的计算精度.  相似文献   

9.
针对嵌入式GPU通用计算的仿真器构建需求,通过对通用图形处理单元仿真器(general purpose graphics processing unit-simulator,GPGPU-sim)的计算核心、存储结构与Mali GPU的异同进行比较分析,首先建立面向OpenCL的Mali GPU仿真器的流程与结构,并设计计算单元数、寄存器数、最小并行粒度等GPU微体系结构参数的获取方法,在对GPGPU-sim进行修改和配置后,实现了对特定GPU架构的仿真器构建。使用矩阵相乘、图像处理等OpenCL程序对仿真器的准确性进行测试,以程序在仿真器和硬件平台上的执行周期数差距作为评估依据。实验结果表明:对于测试程序集中优化前的OpenCL程序,其中70%的程序在两个平台上的运行周期数差距不超过30%;对于优化后的OpenCL程序,其中90%的程序的运行周期数差距不超过30%。由此证明,构建的GPU仿真器能够满足OpenCL程序的仿真与性能评估。  相似文献   

10.
针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速.  相似文献   

11.
分析了K-means算法在GPU上实现并行计算的可能性,并在GTX8800 GT显卡上实现,研究了GPU的存储访问机制,在对数据进行合理组织基础上对算法进行改进,避免了存储体冲突的产生,提高了算法的健壮性.研究结果证明该方法在GPU上的并行运算速度明显快于CPU,加速比高.  相似文献   

12.
图像分形编码压缩率大且质量较高,但实时性不好,因此难以推广应用.提出使用GPU对编码进行加速的方案.以图像FW算法为基础,在CUDA规范下,使用GPU并行地对图像中所有的待编码子树同时进行最优父树搜索.实验表明,该文编码方案在保持原有算法图像解码质量的情况下,可将编码时间缩短至毫秒级,满足了实时性的要求.  相似文献   

13.
相对于先前的并行人工蜂群算法进行了一些改进,主要采用OpenCL本地内存、并行规约等技术,提出了一种基于图形处理器(GPU)改进的并行人工蜂群算法.该算法将采蜜蜂映射为OpenCL一个工作项,跟随蜂采用右邻域优先的局部选择机制.实验结果表明:文中提出的改进并行人工蜂群算法提高了算法的执行效率,收敛速度得到提升.  相似文献   

14.
基于可编程GPU的快速体绘制技术   总被引:8,自引:0,他引:8  
新一代的图形显示硬件集成了以图形处理器(Graphics Processing Unit,GPU)为核心的可编程顶点着色器和可编程像素着色器,为实现实时体绘制技术提供了硬件加速支持.该文首先分析了可编程GPU的绘制流水线、硬件体系结构和快速绘制原理.最后基于可编程GPU实现了医学体数据的快速最大密度投射体绘制方法.实验表明,采用GPU的可编程像素着色器进行体绘制所需要的时间明显地少与不用GPU的可编程像素着色器进行体绘制所需要的时间.  相似文献   

15.
近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。  相似文献   

16.
针对多圆检测问题,本文提出一种边缘点连续性特征按曲线段进行归类,同时丢弃非圆特征点,利用图形处理器(GPU)的高度优化的并行计算能力在每个曲线段点集中按照一定的取点规则取3点并行计算圆参数的改进Hough变换算法。该实现有效地降低Hough变换的无效累积,同时保留了传统Hough变换抗噪性强、对不完整边缘具有鲁棒性等优点。经测试,该改进算法在GPU的检测的速度优于CPU三十多倍,性能具有明显优势。  相似文献   

17.
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植.  相似文献   

18.
邓军勇 《科技信息》2014,(15):36+21
本文采用Bezire函数,基于查找表设计了一种用图形处理器的基本三角函数求值电路,包括预处理、控制点选择、基函数产生与坐标逼近和求值电路。该电路结构简洁,运算速度快、精度高。  相似文献   

19.
蒙特卡洛模拟法常用来进行期权定价,但此算法存在运算量过大的问题.利用图形处理器(GPU)超强计算能力实现美式期权定价,在GPU上,首先优化实现了均匀随机数生成器,然后利用Box-Muller随机数转换算法产生随机数,最后优化实现了最小二乘蒙特卡洛模拟法的美式期权模拟定价系统.测试结果表明,GPU实现的最小二乘蒙特卡洛美式期权定价对比CPU的实现加速比最高达到了16.1.利用GPU的编程技术以更小的硬件代价,更高的执行效率,更好地完成由CPU完成的传统任务,较好地解决了蒙特卡洛模拟法运算量过大的问题,充分挖掘了GPU的通用计算潜力.  相似文献   

20.
设计基于图形处理器(GPU)并行计算与图像匹配的条码识别算法.首先,设计基于归一化协方差的图像匹配算子,定位每个条码的位置.然后,根据条码面积、周长、形状因子,确定条码种类.最后,采用GPU并行计算方式完成条码解析.实验数据显示:与当前条码识别技术相比,所提算法能够同步识别多种条码,且在面对光照强度较暗或过高时,该算法具有更高的稳定性与抗干扰性,其仍具有更高的识别精度与效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号