排序方式: 共有91条查询结果,搜索用时 562 毫秒
11.
深度学习的兴起使得对计算的需求进一步加剧,其中循环神经网络长短时记忆单元中的非线性激活函数是硬件加速的重点。传统的查找表法、泰勒级数展开法、分段线性拟合法的硬件资源开销相对较大。本文在表驱动线性拟合的硬件加速基础上,进行了分析与数学推导,提出了非均衡参数化表驱动线性拟合S型激活函数的硬件加速。通过移动直线中心,降低了单边误差。对函数中误差较大与较小的区间进行差异划分,提高了误差分布较大区间的直线区间数量,进一步减小误差。FPGA高层综合的实验结果表明,非均衡表驱动线性拟合法在不增加硬件资源开销和不降低性能的前提下,能够实现较小误差的优化。参数化进一步提高了硬件的复用性与应用选择的灵活性。 相似文献
12.
为了解决无状态加速器对有状态虚拟网络功能(Virtual Network Function,VNF)的加速效果较差的问题,该文提出了一种基于可编程硬件的有状态功能处理加速架构(Stateful Function Processing Acceleration Architecture,SFPA).SFPA通过为数据平面提供有状态处理单元(Staeful Processing Unit,SPU),将数据包处理任务卸载到数据平面上.此外,SFPA能够为多个VNF独立地分配加速资源,并采用资源分配优化算法降低硬件资源开销,提高了加速架构的灵活性.基于NetFPGA-10G平台的实验结果表明,SFPA架构下,VNF的吞吐量是采用DPDK加速时的2.9倍,是无状态硬件加速器的1.7倍;资源分配优化算法的优化率最高可达41.9%. 相似文献
13.
《无线电通信技术》2016,(3)
近年来,设计高速的网络设备用以在流层面进行分组处理,一直是工业界和学术界的研究热点。10G网络下的TCP流处理同时面临性能问题和异常情况的处理。真实流量的许多特性,会导致基于硬件的TCP流处理系统内存耗尽。针对这种情况,提出并实现了一种用于10G网络中TCP流处理的硬件设计方法,能够处理百万量级TCP流的分组重组和状态跟踪。该解决方案提出了大规模流表的流替换算法和对全局流表的快速的单轮访问方式,采取了对乱序数据缓冲管理的主动释放策略,设计了一种无链的数据结构,保证了最坏情况下的处理时间要求。仿真结果显示,该系统可以处理超过99%的10G网络流量。基于FPGA的硬件原型也验证了系统的设计。 相似文献
14.
现有神经网络大多模型复杂,由于模型参数量、计算量较大而难以应用于移动终端等实际场景,因此本文选择轻量级神经网络MobileNet并利用高性能、可重构的FPGA平台进行硬件加速设计。通过并行展开、流水线设计、量化策略等方式优化加速器,针对提升并行度带来的大量DSP资源消耗,本文通过DSP优化编码方式对卷积操作中的乘法进行优化,从而减少了44.8%的DSP资源消耗。实验结果表明本文在Xilinx ZCU102开发板上实现了129.6 fps的推理速度,整体性能达到147.4 GOP/S。 相似文献
15.
运动估计是H.264/AVC视频编码标准中计算量最大、耗时最多的模块。为加速编码过程,基于NVIDIA公司提出的统一计算设备架构(CUDA)组成的异构系统,设计了一种并行运动估计算法。该算法采用顺序运动搜索方式,并且使用合成的方式得到宏块在不同划分模式下的绝对帧差和(SAD)值。将运动估计分为3个步骤:小宏块SAD值计算,合成其他形状块SAD值,归约获取最佳结果。各个步骤串行执行,而每个步骤内并行执行大量的线程。实验结果表明,在GTS450硬件平台上,与传统的基于CPU算法相比获得了平均超过50倍的加速比。 相似文献
16.
17.
为了解决光纤布拉格光栅(FBG)传感网络的光谱信号混叠问题,基于现场可编程门阵列(FPGA)提出了一种利用卷积神经网络(CNN)模型的混叠光谱信号解调算法,并对其进行硬件实现与加速。通过对模型参数进行定点数量化,压缩网络模型的存储空间,提高FPGA中DSP资源的利用率;利用循环展开和数组重排等硬件优化方法,提高了系统实时性,确定了算法的并行计算方案。研究结果表明,在100 MHz的时钟下,测试集解调精度为1.19 pm,推理速度为每帧14.96μs,光谱解调速率为60 kHz,对于FBG混叠光谱信号解调具有较高的精度和速率。 相似文献
18.
5G、云计算、人工智能等技术高速发展,带来了对算力规模、算力能力等需求的快速提升和异构计算的迅速发展。作为硬件可重构的半定制芯片,现场可编程门阵列(Field Programmable Gate Array, FPGA)也迎来了新的发展机会。介绍了FPGA市场发展情况和国内外FPGA主流厂家的典型产品,根据FPGA灵活性、流处理和并行运算的特点对FPGA的应用场景进行了分析,并对FPGA的未来发展方向进行了展望。 相似文献
19.
为了提高末敏弹在复杂背景条件下对装甲目标的识别能力,将线阵激光雷达作为探测器,结合卷积神经网络对线阵激光雷达距离像进行目标分类与识别.利用末敏弹边旋转边下降的运动特点,实现对扫描区域的距离成像,并通过采样率控制及插值等算法将原始距离像构造成适用于卷积神经网络的灰度像.针对弹载高实时性、小体积和低功耗的要求,建立了由两层卷积层和一层全链接层构成的浅层卷积网络,选用Xilinx ZYNQSoC芯片作为硬件平台,通过基于HLS技术和SDSoC开发环境将卷积操作放在端进行硬件并行加速.缩比模拟试验结果验证了该方法具有较高的目标识别精度,对复杂背景下的装甲目标也能有效识别.ZYNQSoC的PL硬件相较于普通CPU方案,加速性能提升了5倍,能够满足弹载的要求. 相似文献
20.