首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对卷积神经网络在极致边缘计算(UEC)场景应用中的性能和功耗需求,该文针对场景中16 Bit量化位宽的网络模型提出一种不依赖外部存储的卷积神经网络(CNN)加速器架构,该架构基本结构设计为基于现场可编程逻辑门阵列( FPGA)的多核CNN全流水加速器。在此基础上,实现了该加速器的层内映射与层间融合优化。然后,通过构建资源评估模型在理论上完成架构中的计算资源与存储资源评估,并在该理论模型指导下,通过设计空间探索来最大化资源使用率与计算效率,进而充分挖掘加速器在计算资源约束条件下的峰值算力。最后,以纳型无人机(UAV)自主快速人体检测UEC场景为例,通过实验完成了加速器架构性能验证与分析。结果表明,在实现基于单步多框目标检测(SSD)的人体检测神经网络推理中,加速器在100 MHz和25 MHz主频下分别实现了帧率为137和34的推理速度,对应功耗分别为0.514 W和0.263 W,满足纳型无人机自主计算这种典型UEC场景对图像实时处理的性能与功耗需求。  相似文献   

2.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。  相似文献   

3.
黄赟  张帆  郭威  陈立  羊光 《电子学报》2023,(3):639-647
当前卷积神经网络模型存在规模过大且运算复杂的问题,难以应用部署在资源受限的计算平台.针对此问题,本文基于数据标准差提出了一种适合部署在现场可编程门阵列(Field Programmable Gate Array, FPGA)上的对数量化方法 .首先,依据FPGA的特性提出对数量化方法,将32 bit浮点乘法运算转换为整数乘法及移位运算,提高了运算效率.然后通过研究数据分布特点,提出基于数据标准差的输入量化及权值混合bit量化方法,能够有效减少量化损失.通过对RepVGG、EfficientNet等网络进行效率与精度对比实验,8 bit量化使得大型神经网络精度仅下降1%左右;输入量化为8 bit,权重量化为10 bit场景下,模型精度损失小于0.2%,达到浮点模型几乎相同的准确率.实验表明,所提量化方法能够使得模型大小减少75%左右,在基本保持原有模型准确率的同时有效地降低功耗损失、提高运算效率.  相似文献   

4.
牛朝旭  孙海江 《液晶与显示》2023,(11):1521-1530
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。  相似文献   

5.
为降低卷积神经网络推断时的时延和能耗,使用动态网络剪枝技术得到稀疏网络并设计出高能效比的稀疏卷积神经网络加速器.针对运算负载不均衡问题,提出适合稀疏运算的数据流;针对卷积运算高时延问题,采用16×16运算阵列提高运算并行度,设计索引单元避免无效运算,设计脉动输入层加强数据复用,采用乒乓缓存减少数据等待.综合结果表明,在TSMC 28 nm工艺下,芯片工作频率可达500 MHz,功耗为249.7 mW,卷积运算峰值算力达到256 GOPS,能效比为1.03 TOPS/W.  相似文献   

6.
随着当今时代的发展和科技的进步,研究人员在集成电路的设计和制造工艺上获得了巨大的突破。其中FPGA因其具有独特的并行结构,可以减少运算时间,提高效率的优势而被越来越多开发者的选择,在当今具有重要的作用。早在1960年代,科学家们在研究猫大脑皮层中的神经元对部分敏感和定向的神经元时,他们惊奇的发现反馈神经网络的复杂程度被这独特的网络结构降低了,这引起了科学家们的兴趣。随着他们的深入研究,继而提出了卷积神经网络。卷积神经网络(CNN)作为当下的新兴算法脱颖而出,它的计算方式十分特别因而引起了研究者极大的兴趣,是多层神经网络研究的主攻方向,对于它的深入研究在现在甚至是未来都有很重要的作用,可以用于识别图像,对当今社会具有重要的现实意义和使用价值。权值共享,减少参数数量,在输入我们需要识别的图片后,提取特征获取信息,最后将信息收集起来是卷积神经网络通常使用的方法。这是卷积神经网络通常采取用于识别图像的方法,本文也会更加清楚的说明其基本结构和工作流程,把目前对于卷积神经网络已有研究成果的作为本文研究的基石,深入了解并且研讨卷积神经网络的并行系统构造,探究其运行方法和效益,并且研究FPGA与CNN的结合。  相似文献   

7.
针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专用SRAM存储器。加速器将池化和激活单元融入数据通路,有效减少数据重复存取带来的时间开销。FPGA原型验证表明加速器的性能达到92.2 GOPS@100 MHz;基于TSMC 130 nm工艺节点进行逻辑综合,加速器的动态功耗为33 mW,面积为90 764.2μm2,能效比高达2 793 GOPS/W,比FPGA加速器方案提高了约100倍。该加速器低功耗、低成本的特性,有利于实现嵌入式系统在目标检测、人脸识别等机器视觉领域的广泛应用。  相似文献   

8.
为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调BRAM和DDR带宽资源;3)利用深度可分解卷积替换部分卷积层,减少网络整体计算量.为了验证提出的设计空间探索方法,在ZC-706FPGA上实现了YOLO2-tiny网络,结果表明与同类设计相比,本设计的吞吐率与能效比高,整体延时低.  相似文献   

9.
满涛  郭子豪  曲志坚 《电讯技术》2021,61(11):1438-1445
为提高目前硬件设备上运行卷积神经网络的速度和能效,针对主流的卷积神经网络提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的流水线并行加速方案,设计优化了数据存储模块、卷积计算模块、池化模块以及全连接模块,结合高层次综合技术构建了基于FP GA的卷积神经网络基本单元.为了降低加速系统的硬件开销,在保证卷积神经网络精度损失很小的前提下,采用数据量化的方式将网络参数从32位浮点数转化为16位定点数.系统测试使用MNIST数据集和CIFAR-10数据集,实验结果显示,所提出的卷积神经网络FPGA加速具有更快的识别效果,并且该方案在资源和功耗较少的情况下可以提供更好的性能,同时能够高效地利用FP GA上的硬件资源.  相似文献   

10.
针对当前AI专用加速器设计复杂且存在内存瓶颈等不足,提出一种通用型卷积神经网络加速器架构.其RISC(Reduced Instruction Set Computer)指令集支持不同类型卷积神经网络到硬件加速器的高效映射.其通用卷积计算模块是一个由多个基本运算单元组成的可重构三维脉动阵列,支持不同尺寸的二维卷积计算;脉动阵列规模可根据需要进行配置,适用不同的并行加速需求.为缓解内存瓶颈、提高算力,输入模块引入多级缓存结构,可实现对片外数据的高速读取;输出模块设计一种基于“乒乓”架构的多级数据累加结构,以实现卷积计算结果的高速缓存输出.将所提架构在FPGA芯片上予以实现,实验结果表明该架构凭借较少计算资源和较低功耗取得了与当前先进加速器相近的性能,且通用性更强.  相似文献   

11.
人工神经网络在各类激光技术中有着广泛应用,但是传统的流水展开架构加速器无法处理激光焊接参数提取、激光诱导击穿光谱分析等计算任务所需的多种反向传播(BP)神经网络。本课题组基于Xilinx PYNQ-Z2开发平台设计并实现了一种面向激光焊接技术的BP神经网络可配置型计算加速器架构。采用可配置架构设计和复用运算单元互连的方式,硬件电路可拟合成多种BP网络结构,加速器具有灵活的可配置性;同时,采用基于多级缓存结构的数据读取方法,解决了加速器运算阵列在读入数据时因多次访问片外存储器而导致的读取速度的瓶颈。基于实际激光焊接参数数据集的计算结果表明,所设计的加速器可以高效地加速具有多种神经元数量的BP神经网络。与嵌入式处理平台相比,加速器的典型网络运算性能平均有10.5倍的提升,神经元数目超过100的大型网络运算性能有56.4倍的提升,并且处理速度优于改进前于同一平台实现的普通加速器。  相似文献   

12.
现场可编程门阵列(FPGA)被广泛应用于卷积神经网络(CNN)的硬件加速中。为优化加速器性能,Qu等人(2021)提出了一种3维可变换的CNN加速结构,但该结构使得并行度探索空间爆炸增长,搜索最优并行度的时间开销激增,严重降低了加速器实现的可行性。为此该文提出一种细粒度迭代优化的并行度搜索算法,该算法通过多轮迭代的数据筛选,高效地排除冗余的并行度方案,压缩了超过99%的搜索空间。同时算法采用剪枝操作删减无效的计算分支,成功地将计算所需时长从106 h量级减少到10 s内。该算法可适用于不同规格型号的FPGA芯片,其搜索得到的最优并行度方案性能突出,可在不同芯片上实现平均(R1, R2)达(0.957, 0.962)的卓越计算资源利用率。  相似文献   

13.
由于Canny算法自身的复杂性,使得其做边缘检测的处理时间较长。针对这个问题,提出和实现了一种Canny算法的硬件加速功能。加速功能的设计是以FPGA为硬件基础,并采用了流水线技术来对系统的结构改进和优化。最后通过对有加速器和无加速器的系统分别做图像处理,并对统计时间对比分析。结果表明经过加速改进的系统相对节约了处理时间,并能实时高效地处理复杂图像的边缘。  相似文献   

14.
范海波 《电子科技》2010,23(5):58-62
从实际工程应用出发,研究了在基于FPGA上快速傅里叶变换实现线性卷积的方法,并搭建了一个基于Altera 的EP2S60硬件处理平台,利用Altera提供的FFT IP核,在100 MHz系统时钟下,数据吞吐率可达100 Ms/s。  相似文献   

15.
刘杰  葛一凡  田明  马力强 《电子学报》2021,49(4):729-735
针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资源,探索了一种卷积运算循环优化电路;为降低带宽访问量,设计了一种数据在内存中的特殊排列方式...  相似文献   

16.
本论文针对深度升级网络中的卷积计算的循环特征,分析了当前已有的神经网络加速对于卷积计算的权重做二维并行和三维并行的实现方式,提出了一种新的神经网络加速器(DNNA)设计。本文DNNA合并二维并行和三维并行,并可根据卷积计算的参数特征灵活选择数据流,优化卷积计算的并行效率。本文DNNA对稀疏卷积可以既省略权重零值的计算,还可以均衡MAC算力。本文DNNA通过仿真和FPGA测试验证卷积计算正确性,在Xilinx ZYNQ-7000 FPGA板上,按256个MAC单元+256KByte Buffer实现,约需要27000 LUTs。  相似文献   

17.
《信息技术》2017,(10):5-9
针对卷积神经网络训练图像数据时,其学习到的卷积核是杂乱无章,没有规则的,提出了基于稀疏卷积核的卷积神经网络算法。该方法通过对平方误差代价函数加入稀疏约束项,在反向传播中修正卷积核时,使其学习到的部分卷积核近似于一阶微分梯度算子,即学习到的卷积核中部分值是0或者趋于0,可更好地来提取图像边缘特征。通过对手语图像数据及车牌图像数据进行训练的实验结果显示,其学习到的部分卷积核具有近似一阶微分的模板形式;并且相对经典卷积神经网络,该算法的识别正确率有所提高。  相似文献   

18.
3维卷积神经网络(3D CNN)与双流卷积神经网络(two-stream CNN)是视频中人体行为识别研究的常用架构,且各有优势。该文旨在研究结合两种架构且复杂度低、识别精度高的人体行为识别模型。具体地,该文提出基于通道剪枝的双流-非局部时空残差卷积神经网络(TPNLST-ResCNN),该网络采用双流架构,分别在时间流子网络和空间流子网络采用时空残差卷积神经网络(ST-ResCNN),并采用均值融合算法融合两个子网络的识别结果。进一步地,为了降低网络的复杂度,该文提出了针对时空残差卷积神经网络的通道剪枝方案,在实现模型压缩的同时,可基本保持模型的识别精度;为了使得压缩后网络能更好地学习到输入视频中人体行为变化的长距离时空依赖关系,提高网络的识别精度,该文提出在剪枝后网络的首个残差型时空卷积块前引入一个非局部模块。实验结果表明,该文提出的人体行为识别模型在公共数据集UCF101和HMDB51上的识别准确率分别为98.33%和74.63%。与现有方法相比,该文模型具有参数量小、识别精度高的优点。  相似文献   

19.
本文针对Yolo v2目标检测卷积神经网络实现了基于Xilinx Virtex Ultrasale+VCU118的硬件加速,整体采用MCU+FPGA的异构计算架构,MCU采用ArmCortex-M3软核IP布局布线到FPGA开发板中。软件上完成了MCU读取大位宽RAM数据以及中断控制系统的设计,硬件上完成了Yolo v2网络前向传播模型中的卷积、ReLU非线性激活、最大池化等核心模块的设计。PE(Processing Engine)阵列借鉴了eyeriss阵列架构中的行固定流思想,通过精心设计阵列输入数据的格式,将多维卷积拆分成一维卷积,实现多输入特征图、多通道、多卷积核的通用性卷积计算,且利用Chisel3语言实现了一种高度参数化的卷积计算电路生成器,具有计算位宽可调、PE阵列规模可调、PE单元内部存储可调的特点。  相似文献   

20.
RISC-V架构因开源、简洁、模块化、可拓展等特点,受到学术界和产业界的重视,并得到广泛应用;本文介绍了一个基于RISC-V架构的卷积加速器SoC设计方案,在Chipyard开源框架上,以Rocket处理器为内核,加入卷积加速协处理器,并采用一种新的数据流结构,实现对卷积运算的加速;通过仿真测试的对比,加速器对卷积计算有明显节能、加速的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号