首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
《信息技术》2019,(12):110-115
FPGA(现场可编程门阵列)作为人工智能应用的新加速载体,可替GPU对人工智能应用推理阶段进行加速。文中提出了一种新的人工智能应用加速方案,利用定点、矩阵压缩等方法对卷积神经网络(CNN)模型进行处理,优化CNN网络模型,并设计开发一套驱动软件框架以适配国产平台。该技术在飞腾1500A国产服务器上对卷积神经网络中的人脸识别与目标检测应用进行加速,运算性能较目前国产服务器运算能力提升30倍以上,实现自主可控的人工智能应用加速。  相似文献   

2.
随着当今时代的发展和科技的进步,研究人员在集成电路的设计和制造工艺上获得了巨大的突破。其中FPGA因其具有独特的并行结构,可以减少运算时间,提高效率的优势而被越来越多开发者的选择,在当今具有重要的作用。早在1960年代,科学家们在研究猫大脑皮层中的神经元对部分敏感和定向的神经元时,他们惊奇的发现反馈神经网络的复杂程度被这独特的网络结构降低了,这引起了科学家们的兴趣。随着他们的深入研究,继而提出了卷积神经网络。卷积神经网络(CNN)作为当下的新兴算法脱颖而出,它的计算方式十分特别因而引起了研究者极大的兴趣,是多层神经网络研究的主攻方向,对于它的深入研究在现在甚至是未来都有很重要的作用,可以用于识别图像,对当今社会具有重要的现实意义和使用价值。权值共享,减少参数数量,在输入我们需要识别的图片后,提取特征获取信息,最后将信息收集起来是卷积神经网络通常使用的方法。这是卷积神经网络通常采取用于识别图像的方法,本文也会更加清楚的说明其基本结构和工作流程,把目前对于卷积神经网络已有研究成果的作为本文研究的基石,深入了解并且研讨卷积神经网络的并行系统构造,探究其运行方法和效益,并且研究FPGA与CNN的结合。  相似文献   

3.
基于CPU及GPU的卷积神经网络平台存在体积大、能耗高等问题,提出了一种基于Zynq平台的卷积神经网络人脸检测加速系统。该系统采用YOLOv3-Tiny算法,并利用Wider Face人脸数据集进行训练。为提高网络效率,采用层融合技术减小网络深度,加快检测速度;同时,采用8位整数量化策略,以降低内存访问量,减少资源消耗。通过利用ZynqXC7Z035芯片上FPGA端并行计算能力,设计出可重复利用的多通道卷积计算模块,实现DSP的重复递用。实验结果显示,所设计的加速系统实现了9.5FPS的实时推理速度,检测速度是intel i7-8700CPU的7.9倍,系统功耗仅为2.65W,满足低功耗的性能需求。  相似文献   

4.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。  相似文献   

5.
黄赟  张帆  郭威  陈立  羊光 《电子学报》2023,(3):639-647
当前卷积神经网络模型存在规模过大且运算复杂的问题,难以应用部署在资源受限的计算平台.针对此问题,本文基于数据标准差提出了一种适合部署在现场可编程门阵列(Field Programmable Gate Array, FPGA)上的对数量化方法 .首先,依据FPGA的特性提出对数量化方法,将32 bit浮点乘法运算转换为整数乘法及移位运算,提高了运算效率.然后通过研究数据分布特点,提出基于数据标准差的输入量化及权值混合bit量化方法,能够有效减少量化损失.通过对RepVGG、EfficientNet等网络进行效率与精度对比实验,8 bit量化使得大型神经网络精度仅下降1%左右;输入量化为8 bit,权重量化为10 bit场景下,模型精度损失小于0.2%,达到浮点模型几乎相同的准确率.实验表明,所提量化方法能够使得模型大小减少75%左右,在基本保持原有模型准确率的同时有效地降低功耗损失、提高运算效率.  相似文献   

6.
为了解决光纤布拉格光栅(FBG)传感网络的光谱信号混叠问题,基于现场可编程门阵列(FPGA)提出了一种利用卷积神经网络(CNN)模型的混叠光谱信号解调算法,并对其进行硬件实现与加速。通过对模型参数进行定点数量化,压缩网络模型的存储空间,提高FPGA中DSP资源的利用率;利用循环展开和数组重排等硬件优化方法,提高了系统实时性,确定了算法的并行计算方案。研究结果表明,在100 MHz的时钟下,测试集解调精度为1.19 pm,推理速度为每帧14.96μs,光谱解调速率为60 kHz,对于FBG混叠光谱信号解调具有较高的精度和速率。  相似文献   

7.
有限长单位冲击响应滤波器(FIR)是合成孔径雷达(SAR)系统的重要组成部分。为综合考虑资源与性能对系统的影响,基于现场可编程门阵列(FPGA)设计实现了位宽、阶数可配置的SAR雷达信号处理FIR系统,首次完成了合理范围内的只读存储器(ROM)地址位宽和所有输入并行度设置下的分布式算法(DA)结构对比实验,并对不同结构实现下的系统性能资源比进行了全面分析和比较,得到了最优化高并行度DA结构。实验结果表明在ROM地址位宽为4或5时性能资源比最好;性能资源比随输入并行度的提高而提高,当输入并行度为输入数据位宽时,性能资源比提高24%至117%。对比传统的全串行结构、全并行结构和DA结构,经ROM地址位宽和输入并行度优化后的DA结构的性能资源比分别提高了3 110%,76%和86%。  相似文献   

8.
9.
提出一种在FPGA上实现发射光谱层析技术SIRT算法时,在原有资源不变的情况下,加速系统运算的方法。该方法把矩阵分块理论的数学原理和FPGA具有并行运算能力的优势有机结合,使运算速度有效提升,不仅使发射光谱层析(EST)技术向实时化迈近了一步,同时也为今后在FPGA上实现其他数据量庞大的数字信号处理时速度的提升和资源的优化给出启示,即在硬件资源不变的情况下,可以充分利用数学理论并结合硬件资源现有的优势实现设计的目标。  相似文献   

10.
一种基于FPGA的Viterbi译码器优化算法   总被引:1,自引:1,他引:0  
Viterbi译码是卷积码的最佳译码算法,针对Viterbi译码器实现中资源消耗、译码速度、处理时延和结构等问题,通过对Viterbi译码算法及卷积码编码网格图特点的分析,提出一种在FPGA设计中,采用全并行结构、判决信息比特与路径信息向量同步存储以及路径度量最小量化的译码器优化实现方案。测试和试验结果表明,该方案与传统的译码算法相比,具有更高的速度、更低的时延和更简单的结构。  相似文献   

11.
模糊C均值(FCM)算法是一种基于贪心思想的迭代算法,算法沿迭代序列收敛到一个极小值,但存在搜索能力弱、易陷入局部最优的缺点.本文提出了一种基于禁忌搜索的模糊聚类算法,该算法在一个解的邻域内使用禁忌搜索,并采用了基于FCM局部收敛性质的长期表禁忌策略,保证在不断移动搜索起点的同时避免重复搜索;其次使用混沌优化思想与动态步长策略来提升算法的全局搜索能力,以达到获取全局最优解的目的.实验结果表明,改进算法极大地提高了聚类准确率,并具有良好的稳定性,与群智算法和遗传算法的优化相比也具有一定的优势.  相似文献   

12.
王艳营 《通信技术》2008,41(6):155-157
文章在讨论可变形块(DBMA)的运动估计和基于节点位移的可变形块运动模型的基础上,提出了基于节点交叉搜索的可变形块匹配算法(CS-DBMA).以四节点模型为例,详细研究了该算法的搜索过程和流程,并利用两个序列进行测试,测试结果表明,在预测效果减少很小的情况下,CS-DBMA算法的运算量大大的减少.  相似文献   

13.
刘昊 《电子质量》2010,(12):1-4
随着GPU的发展,其计算能力和访存带宽都超过了CPU,在GPU上进行通用计算具有成本低、性能高的特点。细胞神经网络由于其特有的性质,非常适合利用GPU进行并行计算,因此,该文提出了利用CU-DA实现的基于GPU的细胞神经网络异构算法,并应用在图像边缘检测上。实验结果证明,与传统的利用CPU实现的边缘检测方法相比,在速度上,基于GPU实现的图像边缘检测方法提高了数十倍,为细胞神经网络在实时图像、视频处理上的应用提供了新的方法。  相似文献   

14.
多中继复用系统因其在通信传输性能和优化资源配置方面的潜力而成为深入研究的热点领域。大量的研究工作虽然提出了一些新的中继选择总体机制,仍缺乏新的针对多中继选择的配置算法。因此针对多中继选择和系统资源配置,提出了一个基于贝叶斯优化算法的多中继选择策略。该策略在信道容量和通信能耗两方面对协作通信传输进行优化。通过仿真表明,提出的多中继选择策略可以明显增加信道容量并延长系统生命周期,达到了提升通信性能和优化资源配置的目的。  相似文献   

15.
差分进化算法是一种有效求解全局优化问题的方法,为进一步提高求解精度,加快求解过程,文中提出一种梯度策略自适应差分进化算法。该算法是在差分进化算法中加入梯度下降法,使其不仅有较好的全局搜索能力,且具有传统优化方法的快速局部搜索能力,因此具有较高搜索精度和较快的搜索过程。通过对CEC2005测试集中的1~14号测试函数进行仿真实验,并与SaDE,NSDE以及CMAES等算法实验结果进行了对比,结果表明了该算法的有效性。  相似文献   

16.
曹玉莲  李文锋  张煜 《电子学报》2018,46(1):110-117
在继承综合学习粒子群算法(Comprehensive Learning Particle Swarm Optimizer,CLPSO)全局探索优势的基础上,引入具有高效收敛性能的传统局部搜索(Orthodox Local Search,OLS)方法,提出了基于拟熵自适应启动局部搜索策略的混合粒子群算法(Hybrid Particle Swarm Optimization algorithm with Adaptive starting strategy of Local Search based on Quasi-Entropy,ALSQE-HPSO).采用拟熵指标解决何时启动OLS这一关键问题.对8个标准函数的10维和20维问题的测试结果,表明了ALSQE-HPSO算法的性能优势.本文提出的算法也与包含两种基于CLPSO的改进算法和一种带OLS的粒子群算法在内的其他6种改进粒子群算法进行了对比,实验结果表明ALSQE-HPSO算法的性能优于对比算法.  相似文献   

17.
针对传统摄像机标定方法标定精度低且标定可重复性差等问题,提出了一种基于麻雀搜索算法(SSA)的摄像机标定方法.首先,利用MATLAB软件中的标定工具箱,获得摄像机内参和外参的初估值,并以求出的初估值为基础,确定SSA的运行区间.然后,通过建立平均重投影误差方程,利用SSA对确定区间内的摄像机参数进行优化,获得了较小的平均重投影误差.最后,将所提标定方法与基于天牛须搜索算法、粒子群优化算法的标定方法的结果进行对比分析,发现利用基于SSA的摄像机标定方法所得的平均重投影误差最小(0.0326 pixel)且方法的可重复性最好.  相似文献   

18.
王艳营  郭继坤 《通信技术》2009,42(2):159-161
文章在讨论基于节点位移的可变形块运动模型的基础上,分析了NS-DBMA的搜索过程和流程,从而提出了带有阀值的基于节点搜索的可变形块运动估计算法(TNS-DBMA)。以四节点模型为例,详细研究了该算法的流程,并利用两个序列进行测试,测试结果表明,TNS—DBMA算法的预测图像效果与NS—DBMA算法接近,但它的运算量大大的减少,比NS—DBMA算法减少一半多。  相似文献   

19.
蚁群优化是一种模拟蚂蚁觅食的群集智能搜索算法,基本蚁群算法收敛性较差,易陷入局部最优解。本文在基本蚁群算法的基础上,提出一种新的蚁群优化算法,通过在信息素局部更新中引入信息素扩散模型,在信息素全局更新中引入随机扰动机制,发挥蚂蚁之间的协同合作能力,提高了算法的收敛速度。以TSP为例的仿真实验表明,该算法具有较强的寻优能力、较好的鲁棒性和有效性。  相似文献   

20.
针对传统的航迹融合算法精度较低、计算过程需要先验状态估计的缺点,提出了一种基于卷积神经网络(CNN)的航迹融合算法。各局部航迹在融合中心已经过时空校准和航迹关联。由于目标运动轨迹具有时间相关性的特点,采用连续多周期的局部航迹估计,结合深度学习积累经验的能力,解析出当前时刻的更精确的系统航迹估计,实现航迹融合。实验表明,该种融合算法能够处理具有共同过程噪声复杂环境干扰下的综合误差,并且在不同传感器和环境情况下,以相同的CNN模型结构训练,融合后的系统航迹误差均方差都低于各局部航迹误差均方差,证明了该算法能够提高航迹精度,具有可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号