共查询到20条相似文献,搜索用时 15 毫秒
1.
针对卷积神经网络在极致边缘计算(UEC)场景应用中的性能和功耗需求,该文针对场景中16 Bit量化位宽的网络模型提出一种不依赖外部存储的卷积神经网络(CNN)加速器架构,该架构基本结构设计为基于现场可编程逻辑门阵列( FPGA)的多核CNN全流水加速器。在此基础上,实现了该加速器的层内映射与层间融合优化。然后,通过构建资源评估模型在理论上完成架构中的计算资源与存储资源评估,并在该理论模型指导下,通过设计空间探索来最大化资源使用率与计算效率,进而充分挖掘加速器在计算资源约束条件下的峰值算力。最后,以纳型无人机(UAV)自主快速人体检测UEC场景为例,通过实验完成了加速器架构性能验证与分析。结果表明,在实现基于单步多框目标检测(SSD)的人体检测神经网络推理中,加速器在100 MHz和25 MHz主频下分别实现了帧率为137和34的推理速度,对应功耗分别为0.514 W和0.263 W,满足纳型无人机自主计算这种典型UEC场景对图像实时处理的性能与功耗需求。 相似文献
2.
为提高卷积神经网络的处理速度,使用零梯度近似处理的卷积方法(梯度卷积)来提高数据的复用率,减少计算量。以卷积核为单位对数据进行梯度计算,针对不同网络的不同层次采用灵活的梯度阈值计算策略,以合理复用相邻窗口的卷积结果。将其中关键的梯度处理模块和卷积计算部分在现场可编程门阵列(FieldProgrammable Gate Array, FPGA)上进行实现,与脉动阵列相结合以提高资源利用率,并针对负载不均衡的问题设计出适合梯度卷积的数据流。基于YOLOv3模型和Pascal VOC数据集的目标检测实验中,在付出较小精度损失的前提下,软件端减少约23.2%的计算量,结合硬件加速比约为17.8%。 相似文献
3.
《固体电子学研究与进展》2016,(1)
设计了一种用于FPGA中的同步、双端口、容量为4kbit、可配置的存储器模块(Block RAM,BRAM)。BRAM以阵列形式内嵌在FPGA内部,是FPGA的主要模块之一。该BRAM可实现1、2、4、8、16bit 5种不同的数据位宽,且具有数据初始化及回读验证的功能。本文分别对BRAM的逻辑层、配置层、布线层进行了描述,重点介绍了逻辑层中时序控制电路和配置层中配置电路的结构和实现方法。基于0.18μm 5层金属SOI CMOS工艺完成BRAM设计实现,并对BRAM进行了仿真,功能仿真结果符合时序控制电路和配置电路的预期设计目标,性能仿真表明其工作频率可达200 MHz。 相似文献
4.
现场可编程门阵列(FPGA)被广泛应用于卷积神经网络(CNN)的硬件加速中。为优化加速器性能,Qu等人(2021)提出了一种3维可变换的CNN加速结构,但该结构使得并行度探索空间爆炸增长,搜索最优并行度的时间开销激增,严重降低了加速器实现的可行性。为此该文提出一种细粒度迭代优化的并行度搜索算法,该算法通过多轮迭代的数据筛选,高效地排除冗余的并行度方案,压缩了超过99%的搜索空间。同时算法采用剪枝操作删减无效的计算分支,成功地将计算所需时长从106 h量级减少到10 s内。该算法可适用于不同规格型号的FPGA芯片,其搜索得到的最优并行度方案性能突出,可在不同芯片上实现平均(R1, R2)达(0.957, 0.962)的卓越计算资源利用率。 相似文献
5.
6.
用于神经网络模式识别的一种改进的BP算法 总被引:4,自引:0,他引:4
在对采用BP算法的神经网络进行分析的基础上,针对标准BP算法的不足进行了改进,并给出了通过对作用函数进行修正后所得到的改进BP算法的应用实例。 相似文献
7.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。 相似文献
8.
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。 相似文献
9.
本文给出了一种利用神经网络计算光流场的新算法。整个计算过程分为三个阶段:神经网络模型参数的估计,轮廓边界垂直速度分量的动态测量以及光流场的计算。通过网络能量函数和运动的约束误差函数的比较对网络参数进行估计。用一个动态算法迭代运行非线性光流场计算方法以使神经网络能量函数达到最小,同时也对垂直速度分量进行动态估计。由模拟试验结果讨论了影响神经网络收敛性能的若干因素。 相似文献
10.
11.
为了提高激光焊接工艺的精度和质量,采用BP神经网络与数据库相结合的技术,设计了一种基于BP神经网络的激光焊接工艺参数优化数据库系统,并进行了实验.结果表明,BP网络训练次数达到3000次以上时,系统输出精度优于0.015mm,同时,焊接熔深与焊缝宽度的实测值与网络输出值最大误差分别为0.03mm与0.007mm,实现了高精度、高质量、高稳定度的设计目标,具有很好的应用前景. 相似文献
12.
13.
当前卷积神经网络模型存在规模过大且运算复杂的问题,难以应用部署在资源受限的计算平台.针对此问题,本文基于数据标准差提出了一种适合部署在现场可编程门阵列(Field Programmable Gate Array, FPGA)上的对数量化方法 .首先,依据FPGA的特性提出对数量化方法,将32 bit浮点乘法运算转换为整数乘法及移位运算,提高了运算效率.然后通过研究数据分布特点,提出基于数据标准差的输入量化及权值混合bit量化方法,能够有效减少量化损失.通过对RepVGG、EfficientNet等网络进行效率与精度对比实验,8 bit量化使得大型神经网络精度仅下降1%左右;输入量化为8 bit,权重量化为10 bit场景下,模型精度损失小于0.2%,达到浮点模型几乎相同的准确率.实验表明,所提量化方法能够使得模型大小减少75%左右,在基本保持原有模型准确率的同时有效地降低功耗损失、提高运算效率. 相似文献
14.
胡俊立 《信息技术与信息化》2022,(12):88-91
在工业机器人视觉系统中,因制造工艺限制,单台相机在视角上存在限制,导致相机采集机器人周围环境信息不足的问题,采用多台相机的布置方案,在视觉信息处理部分对数据进行数据融合可以解决以上问题。BP神经网络是处理数据融合的一项有效工具,它模拟人脑的工作原理,通过一定量的数据样本训练网络,将数据间复杂的逻辑关系转换为网络节点间的连接权重参数,然后根据输出值与期望值的误差动态调整权重参数,从而得到理想的融合数据。通过BP神经网络数据融合算法,把相机采集到的信息互补利用与组合,剔除冗余信息,减少单台相机数据的局限性。基于此,考虑到Kinect相机70°视角的限制,采用三台相机的硬件布置方案,构建数据融合神经网络,将Kinect采集到的视觉信息作为神经网络的输入和输出样本,并进行实时训练,对三台相机的视觉信息进行信息融合。实验证明了方案简单、有效,解决了单相机视角不足的问题,在精度上满足工业机器人视觉系统的要求。 相似文献
15.
本文提出的方法是在相位测量法的基础上,利用神经网络建立折叠相位与高度的映射关系,不需要严格搭建系统,也不需要展开相位及标定系统,不必考虑由系统的非线性所带来的误差.测量结果的精度在十个微米左右,标准方差在一个微米以下,是一种快速有效且准确稳定的机器视觉高度测量方法. 相似文献
16.
17.
18.
将受训神经网络应用于分类领域时如何更好地抽取符号化规则是当今学术界广泛研究的问题。随着网络节点数和连接成几何级数增长,以前那种对网络连接和输出值进行全面分析的方法不再适用。提出了一种新颖的遗传算法用于从受训神经网络中提取符号化的规则。经实验证明这种方法对于提取规则是可行的。 相似文献
19.
20.
格型数字滤波器因其良好的数字特性和模块化的结构,易于采用VLSI实现。本文介绍了一种采用Altera公司的Stratix系列的FPGA芯片设计格型IIR滤波器的设计流程,利用相应的EDA(Electronic Design Automation,电子设计自动化)工具软件设计并完成软硬件仿真与验证。结果表明:该方案可以达到设计要求。 相似文献