首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对卷积神经网络在极致边缘计算(UEC)场景应用中的性能和功耗需求,该文针对场景中16 Bit量化位宽的网络模型提出一种不依赖外部存储的卷积神经网络(CNN)加速器架构,该架构基本结构设计为基于现场可编程逻辑门阵列( FPGA)的多核CNN全流水加速器。在此基础上,实现了该加速器的层内映射与层间融合优化。然后,通过构建资源评估模型在理论上完成架构中的计算资源与存储资源评估,并在该理论模型指导下,通过设计空间探索来最大化资源使用率与计算效率,进而充分挖掘加速器在计算资源约束条件下的峰值算力。最后,以纳型无人机(UAV)自主快速人体检测UEC场景为例,通过实验完成了加速器架构性能验证与分析。结果表明,在实现基于单步多框目标检测(SSD)的人体检测神经网络推理中,加速器在100 MHz和25 MHz主频下分别实现了帧率为137和34的推理速度,对应功耗分别为0.514 W和0.263 W,满足纳型无人机自主计算这种典型UEC场景对图像实时处理的性能与功耗需求。  相似文献   

2.
为提高卷积神经网络的处理速度,使用零梯度近似处理的卷积方法(梯度卷积)来提高数据的复用率,减少计算量。以卷积核为单位对数据进行梯度计算,针对不同网络的不同层次采用灵活的梯度阈值计算策略,以合理复用相邻窗口的卷积结果。将其中关键的梯度处理模块和卷积计算部分在现场可编程门阵列(FieldProgrammable Gate Array, FPGA)上进行实现,与脉动阵列相结合以提高资源利用率,并针对负载不均衡的问题设计出适合梯度卷积的数据流。基于YOLOv3模型和Pascal VOC数据集的目标检测实验中,在付出较小精度损失的前提下,软件端减少约23.2%的计算量,结合硬件加速比约为17.8%。  相似文献   

3.
设计了一种用于FPGA中的同步、双端口、容量为4kbit、可配置的存储器模块(Block RAM,BRAM)。BRAM以阵列形式内嵌在FPGA内部,是FPGA的主要模块之一。该BRAM可实现1、2、4、8、16bit 5种不同的数据位宽,且具有数据初始化及回读验证的功能。本文分别对BRAM的逻辑层、配置层、布线层进行了描述,重点介绍了逻辑层中时序控制电路和配置层中配置电路的结构和实现方法。基于0.18μm 5层金属SOI CMOS工艺完成BRAM设计实现,并对BRAM进行了仿真,功能仿真结果符合时序控制电路和配置电路的预期设计目标,性能仿真表明其工作频率可达200 MHz。  相似文献   

4.
现场可编程门阵列(FPGA)被广泛应用于卷积神经网络(CNN)的硬件加速中。为优化加速器性能,Qu等人(2021)提出了一种3维可变换的CNN加速结构,但该结构使得并行度探索空间爆炸增长,搜索最优并行度的时间开销激增,严重降低了加速器实现的可行性。为此该文提出一种细粒度迭代优化的并行度搜索算法,该算法通过多轮迭代的数据筛选,高效地排除冗余的并行度方案,压缩了超过99%的搜索空间。同时算法采用剪枝操作删减无效的计算分支,成功地将计算所需时长从106 h量级减少到10 s内。该算法可适用于不同规格型号的FPGA芯片,其搜索得到的最优并行度方案性能突出,可在不同芯片上实现平均(R1, R2)达(0.957, 0.962)的卓越计算资源利用率。  相似文献   

5.
讨论了一种基于FPGA的快速FNT算法的实现方案,同时对FNT算法的应用进行了初步的探讨。设计采用与FFT算法中类似的基4时序抽取方法,采用双端口内置RAM及数据串入串出的流水线工作方式。本设计可通过调配参数实现64点及256点的FNT变换,并可同时并行完成两组FNT变换。已经成功应用于数字签名算法中GF(p)域多项式模乘的实现,并使用Xilinx公司Virtex2系列xc2v1000器件下载验证通过了64点的FNT变换。  相似文献   

6.
用于神经网络模式识别的一种改进的BP算法   总被引:4,自引:0,他引:4  
刘岚  秦洪 《信息技术》2002,(6):6-7,10
在对采用BP算法的神经网络进行分析的基础上,针对标准BP算法的不足进行了改进,并给出了通过对作用函数进行修正后所得到的改进BP算法的应用实例。  相似文献   

7.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。  相似文献   

8.
牛朝旭  孙海江 《液晶与显示》2023,(11):1521-1530
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。  相似文献   

9.
本文给出了一种利用神经网络计算光流场的新算法。整个计算过程分为三个阶段:神经网络模型参数的估计,轮廓边界垂直速度分量的动态测量以及光流场的计算。通过网络能量函数和运动的约束误差函数的比较对网络参数进行估计。用一个动态算法迭代运行非线性光流场计算方法以使神经网络能量函数达到最小,同时也对垂直速度分量进行动态估计。由模拟试验结果讨论了影响神经网络收敛性能的若干因素。  相似文献   

10.
采用连续光纤激光器对304不锈钢薄板进行了焊接工艺研究;为了提高激光焊接质量,引入BP神经网络对激光焊接工艺参数进行了优化,建立了焊接质量指标与焊接工艺参数之间的神经网络预测模型,并利用神经网络模型选择了较优的工艺参数.实验结果表明采用该工艺参数进行激光焊接可获得成形良好、无缺陷的焊缝.神经网络的性能预测指标与实际值间的偏差小于5%,可用于激光焊接工艺设计.  相似文献   

11.
为了提高激光焊接工艺的精度和质量,采用BP神经网络与数据库相结合的技术,设计了一种基于BP神经网络的激光焊接工艺参数优化数据库系统,并进行了实验.结果表明,BP网络训练次数达到3000次以上时,系统输出精度优于0.015mm,同时,焊接熔深与焊缝宽度的实测值与网络输出值最大误差分别为0.03mm与0.007mm,实现了高精度、高质量、高稳定度的设计目标,具有很好的应用前景.  相似文献   

12.
一种灵活的实时FPGA数据配置方法   总被引:1,自引:1,他引:0  
基于软件无线电的通信系统需要灵活可变的数据配置方案。在对FPGA配置比特流文件进行结构分析的基础上,提出了一种基于数据总线的灵活的FPGA数据配置方法。  相似文献   

13.
黄赟  张帆  郭威  陈立  羊光 《电子学报》2023,(3):639-647
当前卷积神经网络模型存在规模过大且运算复杂的问题,难以应用部署在资源受限的计算平台.针对此问题,本文基于数据标准差提出了一种适合部署在现场可编程门阵列(Field Programmable Gate Array, FPGA)上的对数量化方法 .首先,依据FPGA的特性提出对数量化方法,将32 bit浮点乘法运算转换为整数乘法及移位运算,提高了运算效率.然后通过研究数据分布特点,提出基于数据标准差的输入量化及权值混合bit量化方法,能够有效减少量化损失.通过对RepVGG、EfficientNet等网络进行效率与精度对比实验,8 bit量化使得大型神经网络精度仅下降1%左右;输入量化为8 bit,权重量化为10 bit场景下,模型精度损失小于0.2%,达到浮点模型几乎相同的准确率.实验表明,所提量化方法能够使得模型大小减少75%左右,在基本保持原有模型准确率的同时有效地降低功耗损失、提高运算效率.  相似文献   

14.
在工业机器人视觉系统中,因制造工艺限制,单台相机在视角上存在限制,导致相机采集机器人周围环境信息不足的问题,采用多台相机的布置方案,在视觉信息处理部分对数据进行数据融合可以解决以上问题。BP神经网络是处理数据融合的一项有效工具,它模拟人脑的工作原理,通过一定量的数据样本训练网络,将数据间复杂的逻辑关系转换为网络节点间的连接权重参数,然后根据输出值与期望值的误差动态调整权重参数,从而得到理想的融合数据。通过BP神经网络数据融合算法,把相机采集到的信息互补利用与组合,剔除冗余信息,减少单台相机数据的局限性。基于此,考虑到Kinect相机70°视角的限制,采用三台相机的硬件布置方案,构建数据融合神经网络,将Kinect采集到的视觉信息作为神经网络的输入和输出样本,并进行实时训练,对三台相机的视觉信息进行信息融合。实验证明了方案简单、有效,解决了单相机视角不足的问题,在精度上满足工业机器人视觉系统的要求。  相似文献   

15.
本文提出的方法是在相位测量法的基础上,利用神经网络建立折叠相位与高度的映射关系,不需要严格搭建系统,也不需要展开相位及标定系统,不必考虑由系统的非线性所带来的误差.测量结果的精度在十个微米左右,标准方差在一个微米以下,是一种快速有效且准确稳定的机器视觉高度测量方法.  相似文献   

16.
针对传统BP神经网络存在学习率设置不当与深度神经网络过拟合导致准确率不高的问题,提出改进的BP神经网络算法。该算法引入了drop-out机制来防止神经网络过拟合,并针对学习率设置不当的问题,将用指数衰减学习率代替传统BP神经网络中固定学习率。实验结果表明,改进后的BP神经网络相较于传统BP神经网络有效地提高了3.06%的测试准确率。  相似文献   

17.
多层前向神经网络的一种改进BP算法   总被引:10,自引:0,他引:10  
在介绍传统BP算法的基础上,提出了一种改进算法,该算法通过对权值调节量的修改,提高了网络训练过程效率。最后,通过仿真结果可以看出,这种算法改进了BP算法的训练过程。  相似文献   

18.
张立斌 《信息技术》2010,(7):60-64,68
将受训神经网络应用于分类领域时如何更好地抽取符号化规则是当今学术界广泛研究的问题。随着网络节点数和连接成几何级数增长,以前那种对网络连接和输出值进行全面分析的方法不再适用。提出了一种新颖的遗传算法用于从受训神经网络中提取符号化的规则。经实验证明这种方法对于提取规则是可行的。  相似文献   

19.
设计并实现了一种用于FPGA配置的抗干扰维持电路,针对基于SRAM的FPGA配置单元易受噪声影响丢失信息的问题,提出了电压不稳定、低压状态下配置信息的抗干扰维持方案.在设计高面积效率配置单元、分析噪声容限的基础上,得出配置单元静态噪声容限随电源电压单调递增的关系,并进一步设计了基准、电荷泵以及电压比较控制电路构成的可切...  相似文献   

20.
格型数字滤波器因其良好的数字特性和模块化的结构,易于采用VLSI实现。本文介绍了一种采用Altera公司的Stratix系列的FPGA芯片设计格型IIR滤波器的设计流程,利用相应的EDA(Electronic Design Automation,电子设计自动化)工具软件设计并完成软硬件仿真与验证。结果表明:该方案可以达到设计要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号