首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对卷积神经网络中卷积计算时间复杂度高、同一电路计算不同尺寸卷积造成资源浪费的问题,本文提出一种具有可切换卷积计算结构的神经网络协处理器.协处理器由32位的专用指令控制,通过对不同结构神经网络的解析,生成相应的控制指令.卷积计算单元根据指令自动切换乘累加器结构或乘加树结构,对多个卷积计算单元进行组合提高了电路的并行性....  相似文献   

2.
针对大数据时代下深层次大规模深度学习网络模型在预测中对运算资源和访存带宽需求指数的增长,以及业界传统CPU+GPU解决方案难以应用于日益普遍的移动嵌入式应用场景等问题,提出了一个基于可编程逻辑器件(FPGA)的卷积神经网络协处理器异构加速设计方案。该方案采用通用模型设计思想,具有可编程性,并且能够兼容多种网路模型从而实现硬件加速;方案具有可扩展性,可在硬件资源允许的范围内进行多核扩展以获得性能翻倍提升。利用硬件的并行性,数据的复用性设计的卷积运算模块提高了硬件资源利用率及运算效率;合理配置的多级缓存结构降低了协处理器对外部存储器读写频率和带宽的占用率,提升了模块内部的通信效能。在XILINX VC707评估板的上板进行实验,结果表明,MNIST-LeNet测试集的准确率高达99%,CIFAR-10可实现80%,浮点运算速度为5.511×1010 s-1,综合性能约两倍于Intel Xeno E5-2640V4服务器通用处理器,达到同期FPGA解决方案的主流水平。  相似文献   

3.
本文提出了一种基于现场可编程门阵列(FPGA)的卷积神经网络(CNN)加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速.首先,我们采用了数据量化的方式将网络参数从浮点数转化为定点数,从而降低了加速系统所需的硬件开销;其次,提出了一种从FPGA端发起数据访问的系统架构,避免了系统运行中因处理器对FPGA频繁干预而引起性能下降的问题;最后,为CNN的计算设计了高效的数据处理和缓存电路,从电路层面保证了加速器的计算效率.本文以交通标志识别(TSR)为应用场景将上述加速方案进行了板级实现.测试结果显示,识别时间为49ms,其中单个乘法器提供了0.081GOPS的性能,性能功耗比达到了6.81GOPS/W.与近年来相关领域文献对比,可以看出本文提出的方案在资源和功耗受限的情况下可以提供更高的性能.  相似文献   

4.
针对卷积神经网络中算子众多、网络结构变化迅速的特点,本文提出一种基于现场可编程门阵列(FPGA)的较为通用的卷积神经网络(CNN)加速器,可适应多种应用需求、达到较好的加速效果。该加速器采用专用的CNN指令集,可通过软件编译网络来生成指令,控制硬件灵活地实现多种网络的推理工作。在设计上,该加速器有如下几个特点:第一,采用状态握手的控制方式,让各个模块能够并行执行;第二,对FPGA的DSP进行拆分,成倍的提高计算资源;第三,通过片上RAM乒乓的方式,进一步减少MAC等待的时间,提高利用率;第四,采用类脉动阵列的形式,让工程的时序更加收敛,主频进一步提高。另外,本文还对第1层卷积以及平均池化等特殊算子,进行特殊支持来进一步提升运行性能。本文在Xilinx Kintex-7 XC7K325T FPGA上进行了实验,核心加速引擎可工作在200 MHz,卷积MAC阵列峰值算力为0.8TOPS,能效比达到63.00 GOP/(s·W)。对于YOLO V2网络,它的平均MAC利用率为91.9%;对于VGG16网络,它的平均MAC利用率为73.5%。  相似文献   

5.
近年来卷积神经网络在图像分类、图像分割等任务中应用广泛.针对基于FPGA(Field Programmable Gate Array)的卷积神经网络训练加速器中存在的权重梯度计算效率低和加法器占用资源多的问题,设计一款高性能的卷积神经网络训练加速器.首先提出一种卷积单引擎架构,在推理卷积硬件架构的基础上增加额外的自累加...  相似文献   

6.
为满足神经网络中多种位宽数据计算的动态需求,从而提升硬件资源的能效,提出一种位串行乘法器设计—以1 bit的计算逻辑为核心,将多位数据的并行乘操作转化为每个周期进行1位数据乘操作的串行计算方式.为进一步提升硬件资源的利用率,在此基础上提出多通道位串行乘法器阵列同时进行多个数据的并行计算.实验结果显示,在最大支持位宽为8 bit的条件下,单通道位串行乘法器的LUT资源使用量是并行乘法器的41%,LUT资源有效利用率是并行乘法器的1.32倍;当通道数为8时,多通道位串行乘法器阵列的LUT资源使用量是多通道并行乘法器阵列的29%.该结构实现了硬件资源和性能之间的平衡——提高硬件资源的利用率从而提升计算效能.  相似文献   

7.
以在现场可编程门阵列(FPGA)上部署卷积神经网络为背景,提出了卷积神经网络在硬件上进行并行加速的方案.主要是通过分析卷积神经网络的结构特点,对数据的存储、读取、搬移以流水式的方式进行,对卷积神经网络中的每一层内的卷积运算单元进行展开,加速乘加操作. 基于FPGA特有的并行化结构和流水线的处理方式可以很好地提升运算效率,从对ciafr-10数据集的物体分类结果看,在不损失正确率的前提下,当时钟工作在800 MHz时,相较于中端的Intel处理器,可实现4倍左右的加速.卷积神经网络通过循环展开并行处理以及多级流水线的处理方式,可以加速卷积神经网络的前向传播,适合于实际工程任务中的需要.  相似文献   

8.
卷积神经网络(CNN)已被广泛用于图像处理领域,且通常在CPU和GPU平台上进行计算,然而在CNN推理阶段存在CPU计算速度慢和GPU功耗高的问题。鉴于现场可编程门阵列(field programmable gate array,FPGA)能够实现计算速度和功耗的平衡,针对当前在卷积结构设计、流水线设计、存储优化方面存在的问题,设计了基于FPGA的卷积神经网络并行加速结构。首先将图像数据和权值数据定点化为16 bit定点数,一定程度上减少了乘加运算的复杂性;然后根据卷积计算的并行特性,设计了一种高并行流水线卷积运算电路,提高了卷积运算性能,同时也对与片外存储进行数据交互的流水线存储结构进行了优化,以减少数据传输的时间消耗。实验结果表明,整体加速器在ImageNet数据集上的识别率达到94.6%,与近年来相关领域的报道结果相比,本文在计算性能方面有一定的优势。  相似文献   

9.
针对跌倒行为的视觉特征难以提取的问题,提出一种由两路卷积神经网络和模型融合部分组成的双流卷积神经网络(Two-Stream CNN)的跌倒识别方法.该方法的一路对视频帧的运动人加框标记后,送三维卷积神经网络(3D-CNN)处理来消除视频背景的干扰;另一路从相邻视频帧获取光流图后,送VGGNet-16卷积神经网络处理;最后将3D-CNN和VGGNet-16的Softmax输出识别概率加权融合作为Two-Stream CNN输出结果.实验结果表明:标记运动人并经3D-CNN处理有效地消除了视频背景的干扰;Two-Stream CNN跌倒识别率为96%,比3D-CNN提高了4%,比VGGNet-16网络提高了3%.  相似文献   

10.
在协处理器中,微程序控制器的微码控制是协处理器指令译码的控制核心。文章提出一种协处理器微程序控制器的设计方法,并给出其功能验证的测试平台。采用隐含下址编码、流水及预译码等设计技术,来提高微码的执行效率。经优化的设计具有较快的译码速度和较小的微控制存储器面积。采用该方法设计的微程序控制器已经嵌入协处理器中,并且流片测试成功。  相似文献   

11.
由于光线串扰,像素补偿算法难以根据提取出的背光信息进行准确补偿,同时,单一补偿曲线难以适应具有不同亮度特点的图像内容,导致补偿图像的平均质量不高.为了提高像素补偿算法对复杂图像内容的适应性,本文引入神经网络中的编码和解码思想,通过编码网络提取图像深层特征,在解码网络中利用浅层特征的信息对深层特征进行解码,提出了一种联合...  相似文献   

12.
13.
卷积神经网络是神经网络的一个分支,通过卷积神经网络可以完成对图像的卷积处理。然而在传统的CPU上,由于并行性不强,会导致计算速度很慢; FPGA由于其并行的特点,逐渐被用到卷积神经网络的图像处理领域。通过设计一套完整的基于FPGA的图像卷积处理方案,利用串口实现上位机与FPGA通信,实现了实时的图像卷积处理,与前人相比,在充分发挥FPGA的并行性以提升运算速度的同时,减小了带宽和资源占用,具有一定实用价值。  相似文献   

14.
车道线检测在辅助驾驶和自动驾驶中有着非常重要的作用和意义,它是保证辅助驾驶和自动驾驶行车安全的重要前提条件.目前,由于卷积神经网络(CNN)具备权值共享的特点,因此减少了训练参数,CNN可以自动学习并提取特征,在图像分割和识别等领域被广泛应用.该文利用车道检测的特点,将经典的CNN中的对称卷积核改进为非对称卷积核(AK...  相似文献   

15.
传统验证码识别方法对不同类型的验证码泛化能力和鲁棒性较差。为此,提出一种基于深度卷积神经网络的端对端验证码识别方法。首先,通过并行级联的卷积层构建简易Inception模块,替代Google-net的卷积层,在降低调整参数数量的同时,提高网络对于不同感受野尺度的适应性。同时,采用全局平均池化层替换原全连接层以防止过拟合,提高网络学习效率。其次,在训练过程中,直接利用深度网络的学习能力自动提取和识别验证码图像的字符特征信息,无须对验证码图像进行预分割,可以有效避免因字符分割引起的误差累积问题。通过对谷歌验证码、正方教务系统验证码和京东验证码的测试,结果表明本方法具有更好的泛化能力和鲁棒性,对三类验证码的识别率分别达到96.3%、98.9%和99%,比经典卷积神经网络分别提高3.14%、2.75%和1.14%。  相似文献   

16.
文本情感分析就是分析主观文本的情感倾向.针对情感分析中标签样本不足以及不同领域中情感表达存在差异的问题,提出一种基于卷积神经网络的跨领域情感分析方法,利用源领域标签样本完成对目标领域的无监督情感分析.首先,量化词项的情感极性、基于词向量度量词项的领域一致性,并在此基础上选择情感强烈且语义一致的词项作为领域间的共享词;然后,采用卷积神经网络提取文本特征,基于共享词的极性对源领域情感文本进行特征扩展;其次,基于扩展的文本完成情感分类器的训练,并对目标领域的情感文本进行分类;最后,在Amazon数据集上进行实验分析,实验结果表明该方法可以提高跨领域情感分类的准确率.  相似文献   

17.
针对目前下肢动作模式识别技术存在的数据量少、识别率低的问题,提出了一种新的基于卷积神经网络的下肢动作模式识别方法。以下肢步态动作识别为对象,采集无负重平地行走,无负重上/下楼及负重上/下楼5种步态的表面肌电信号(surface electromyography,sEMG),对sEMG进行特征提取,构建了一种以特征集作为输入的卷积神经网络,并比较了其与另外几种传统分类识别方法的识别准确率和工作特征。实验结果表明,新方法对于5种步态的平均识别准确率大于95%,错误率都低于8%,具有较高的准确性。因此所提方法的输入特征集更能代表预测模型特征,模式识别率更高,可为康复医疗机器人、助力机器人等设备改善下肢运动功能提供参考。  相似文献   

18.
19.
为提高隐写分析的检测准确率,提出了一种基于浅层卷积神经网络的图像隐写分析方法。与深度卷积神经网络相比,浅层卷积神经网络通过减少卷积层和禁用池化层,来加快神经网络收敛速度和减少隐写特征丢失,同时采用增加卷积核数、使用批正则化以及使用单层全连接层的方式,提高隐写分析网络的泛化性能。实验结果表明,针对S-UNIWARD隐写算法,在嵌入率为0.4 bpp和0.1 bpp时,检测准确率分别能达到96%和81.7%,同时在载体库源及嵌入率失配情况下,该方法仍能保持较好的检测性能。  相似文献   

20.
干扰识别是雷达抗干扰的前提,但是基于特征参数的识别方法受噪声影响大,且参数的特征提取只是发生在某一脉冲重复周期内,难以识别一些具有时序关系的干扰信号.然而利用特征去识别干扰的思路是可行的,据此,本文提出一种利用两个卷积神经网络级联的干扰类型判别方法,此方法基于信号的伪Wigner-Ville分布,分别利用单周期时频图像完成干扰预分类,多周期合成时频图像完成干扰细分类,实现了8种典型干扰样式的识别,尤其适用于拖引干扰的识别.实验结果表明,在本文生成的数据集上,8种干扰的平均识别正确率达到了98%以上.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号