排序方式: 共有96条查询结果,搜索用时 0 毫秒
91.
92.
93.
94.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。 相似文献
95.
基于现场可编程门阵列(Field Programmable Gate Array, FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备。然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题。为此,提出了动态深度神经网络的实现方法。通过引入模型定点压缩技术和并行的卷积分块方法,并结合低延迟的数据调度策略,实现了高效卷积计算。同时对神经网络动态退出机制中引入的交叉熵损失函数,提出便于硬件实现的简化方法,设计专用的加速电路。根据所提方法,在Xilinx xc7z030平台部署了具有动态深度的ResNet110网络,平台最高可完成2.78×104 MOPS(Million Operations per Second)的乘积累加运算,并支持1.25 MOPS的自然指数运算和0.125 MOPS的对数运算,相较于i7-5960x处理器加速比达到287%,相较于NVIDIA TITAN X处理器加速比达到145%。 相似文献
96.
该系统采用LK(Lucas-Kanade)光流法对摄像头捕获的运动目标实现检测和跟踪。但由于LK光流法算法冗杂,时效性差,在对实时性有苛刻要求的情况下并不适用。为解决以上问题,引入基于OpenCL(Open Computing Language,开放运算语言)的LK光流异构并行算法,而设备端采用FPGA(可编程门阵列),实现硬件加速。实验结果表明,该算法对比于普通CPU上调用OpenCV的API对图像处理,算法处理速度上实现了很高的加成,实时性也得到有效的改善。 相似文献