期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

包志忠鲁亚楠樊恩辰李可生杨博沙金李丽潘红兵《微电子学与计算机》2015,(3):77-80

介绍了一种基于SystemC的可重构专用处理器核周期精确建模.该模型采用模块化设计,基于SystemC事务级建模,将运算功能和通信功能分开,模块之间的通信通过函数调用来实现.通过该模型,为可重构专用处理器核提供一种仿真验证平台,与传统RTL验证方法相比,大大提高了可重构专用处理器核的仿真验证效率. 相似文献

2.

一种动态可重构协处理器参数化系统级模型研究

王鹏林水生黄乐天《微电子学与计算机》2011,28(2):86-90

提出了参数化系统级模型.该模型不依赖于具体结构,以任务布局与重构处理分离的两级结构处理任务调用,通过参数方式实现不同设计方案的硬件结构和布局算法的配置.采用SystemC语言对模型进行了建模验证,仿真结果表明,通过指定上下文的下载、配置和执行等时间开销参数,在系统级设计空间探索中,能很好地模拟动态重构协处理器. 相似文献

3.

基于动态可重构技术的阵列型处理器设计

范凯谢憬毛志刚《微电子学与计算机》2010,27(7)

在现有可重构处理器设计的基础上,提出了一种改进的阵列型动态可重构处理器-IRAP.在IRAP中,将处理单元组成的阵列按象限划分为4个区域,每个区域包含个可配置的处理单元,运算时不同区域可以根据需要进行不同的配置,增加了配置的灵活性,提高了系统的执行效率;同时增加了系统数据的传输带宽,并根据数字信号处理中常用的蝶形算法对阵列互联进行了优化.仿真结果显示,在FFT等典型数字信号处理应用中,IRAP具有比改进原型更优的性能. 相似文献

4.

基于SystemC的周期精确级DSP处理器建模

何卫强杨靓卢强《微电子学与计算机》2013,30(4)

针对高级语言做处理器建模在模型精度方面的不足,本文探讨了一种基于SystemC的周期精确级DSP处理器建模方法.在分析各流水段功能的基础上,结合SystemC的语言结构特点,对流水级内各功能模块进行了抽象建模.该模型能够精确地模拟处理器指令的执行情况,对软件算法的设计优化和处理器微结构的探索具有一定的参考价值. 相似文献

5.

循环在可重构处理器上的软硬件划分技术

于苏东刘雷波魏少军《电视技术》2009,33(10)

针对较大循环在可重构处理器上的映射问题提出了一种启发式的算法,将循环划分为在处理器上执行的软件部分和在可重构阵列上执行的硬件部分,并且使两者之间的数据传输量最小.通过测试,相比于原有处理较大循环的方法,该技术降低了13%～29%的循环执行时间.在FPGA验证系统上通过H.264中的运动估计和MPEG-2中的IDCT等多种多媒体核心算法验证了该划分技术.使用该划分技术后,验证系统相比于类似结构在不增加硬件规模的情况下,有平均3.5倍的性能提升. 相似文献

6.

一种可重构流水阵列系统

韦星谢憬毛志刚《信息技术》2010,(6):155-158,171

描述了一种基于可重构流水线阵列的系统- (RPAS-Reconfigurable Pipelined Array System),该阵列系统适用于大计算量的数字信号处理领域,比如视频编解码,通过AHB接口与ARM核进行通信,辅助处理器完成大规模的运算操作.描述这一阵列系统的结构,并介绍在H. 264编解码过程中运行次数多,耗时长的2维DCT运算和求块的SAD值运算在RPAS中的映射与实现.仿真结果显示,RPAS能达到6倍以上于通用处理器的性能,并在运算实现复杂度与芯片面积之间,运算效率与系统通用性之间达到一个权衡. 相似文献

7.

基于XC6200的可重构处理器设计 总被引：1，自引：0，他引：1

常青孙广富卢焕章《信号处理》2001,17(5):454-458

本文讨论一种针对图像信息处理应用的可重构处理器设计与实现.该处理器采用DSP+FPGA的混合计算结构,既具有制造完成后的可编程性,又能提供较高的计算性能,可适用多种实时图像信息处理应用的需要.文中还对动态重构的实现及可重构芯片设计等问题进行了较为深入的讨论,并用设计实例论证了作者的设计思想. 相似文献

8.

基于粗粒度可重构阵列结构的多标准离散余弦变换设计

陈锐杨海钢王飞贾瑞喻伟《电子与信息学报》2015,37(1):206-213

在视频信号的编解码流程中,离散余弦变换(DCT)是一个至关重要的环节,其决定了视频压缩的质量和效率。针对88尺寸的2维离散余弦变换,该文提出一种基于粗粒度可重构阵列结构(Coarse-Grained Reconfigurable Array, CGRA)的硬件电路结构。利用粗粒度可重构阵列的可重配置的特性,实现在单一平台支持多个视频压缩编码标准的88 2维离散余弦变换。实验结果显示,这种结构每个时钟周期可以并行处理8个像素,吞吐率最高可达1.157109像素/s。与已有结构相比,设计效率和功耗效率最高可分别提升4.33倍和12.3倍,并能够以最高30帧/s的帧率解码尺寸为40962048,格式为4:2:0的视频序列。相似文献

9.

基于SystemC的GPU参数分配单元硬件TLM建模

姜丽云田泽吴晓成张骏《长江信息通信》2020,(2):24-27

为了研究GPU参数分配单元处理OpenGL绘图命令和功能命令的顺序性机制,采用SystemC建模语言,基于硬件事务级建模(Transaction-Level Modeling,TLM)思想,详细描述了GPU参数分配单元模型的模块、接口、进程等建模过程,模型之间时钟和事件同步,模块之间通过端口和层次化通道通讯,具有建模效率高和仿真速度快的优点.最后通过仿真结果验证了架构和算法的正确性,实现了在RTL设计之前尽可能早的对架构和算法进行探索和验证,为RTL设计提供参考依据,加速了GPU的软硬件协同设计. 相似文献

10.

面向扩频通信的可重构阵列电路研究

祝鸣涛王友仁孙川王澜涛《微电子学》2010,40(4)

传统的可重构电路主要由细粒度数据处理单元组成,但是其实现的运算功能单一,且布线复杂,限制了可重构SoC电路的通用性和灵活性.针对以上问题,根据通信领域基带信号处理的运算特点,设计了一种新型可重构阵列电路,可作为运算模块嵌入可重构SoC,此阵列由粗粒度数据处理单元构成的细胞互联组成.针对基带信号数据位宽多样的特点,细胞可重构实现多种算子.通过在阵列中每个细胞内部都嵌入独立配置存储器,采用并行数据配置电路的方式,以降低阵列的重构时间开销,实现整个阵列的快速重构.以伪码捕获为例,对设计的电路进行仿真.结果显示,设计的结构布线方法简单、通用性及灵活性强. 相似文献

11.

SoC事务级建模方法

马秦生刘源张宁杨珺《中国集成电路》2012,(1):42-47,53

为了快速地发现SoC性能的瓶颈、实现通信结构的决策,提出一种在事务级采用SystcmC构建片上总线SoC模型的方法。该方法利用端口来连接模块和通道,利用通道来实现接口中定义的方法。经仿真验证,时序完全符合AHB标准,运行速度远高于RTL下的同类模型。该方法有助于在设计流程的早期找寻最优化的片上总线通信结构。相似文献

12.

粗粒度可重构密码逻辑阵列智能映射算法研究 总被引：1，自引：0，他引：1

下载免费PDF全文

杜怡然杨萱戴紫彬南龙梅李伟《电子学报》2020,48(1):101-109

针对粗粒度可重构密码逻辑阵列密码算法映射周期长且性能不高的问题,该文通过构建粗粒度可重构密码逻辑阵列参数化模型,以密码算法映射时间及实现性能为目标,结合本文构建的粗粒度可重构密码逻辑阵列结构特征,提出了一种算法数据流图划分算法.通过将密码算法数据流图中节点聚集成簇并以簇为最小映射粒度进行映射,降低算法映射复杂度;该文借鉴机器学习过程,构建了具备学习能力的智慧蚁群模型,提出了智慧蚁群优化算法,通过对训练样本的映射学习,持续优化初始化信息素浓度矩阵,提升算法映射收敛速度,以已知算法映射指导未知算法映射,实现密码算法映射的智能化.实验结果表明,本文提出的映射方法能够平均降低编译时间37.9%并实现密码算法映射性能最大,同时,以算法数据流图作为映射输入,自动化的生成密码算法映射流,提升了密码算法映射的直观性与便捷性. 相似文献

13.

面向雷达信号处理应用的可重构处理器设计

何国强李丽李世平《现代雷达》2016,(8):46-50

为满足现代雷达的高性能应用需求,文中提出并设计了一种可重构专用处理(RASP)架构。其采用非规则化微结构和混合重构策略,有效提升了并行流水计算的性能;通过兵乓处理机制掩盖DDR读写时间,充分发挥了运算资源的效率。RASP作为硬件加速核嵌入华睿2号DSP芯片并于TSMC 40 nm工艺下完成流片。测试结果显示,RASP完成1 K(1 024)点FFT的运算时间为2.57μs,处理效率高达42%,相比于NoC、MorphoSys、C6678、T4240等处理器,性能提升至1. 9~30倍,效率达到1.25~4 倍。相似文献

14.

基于高速串行总线的可重构信号处理机

梁慧《现代雷达》2011,33(5):46-49

介绍了一种基于高速串行总线的机载火控雷达可重构信号处理机的设计与实现,以及高速串行总线的技术优势,分析了机载火控雷达可重构并行信号处理机系统互连的需求,讨论了处理机的系统架构、串行总线协议、串行总线端点和链路管理器的设计实现和总线错误监测及处理方法。该处理机不仅有效解决了数据传输的瓶颈问题,而且实现了数据传输拓扑结构的可重构,提高了信号处理系统的灵活性和可靠性。相似文献

15.

The Architecture and Development Flow of the S5 Software Configurable Processor

Jeffrey M. Arnold 《The Journal of VLSI Signal Processing》2007,47(1):3-14

A software configurable processor (SCP) is a hybrid device that couples a conventional processor datapath with programmable logic to allow application programs to dynamically customize the instruction set. SCP architectures can offer significant performance gains by exploiting data parallelism, operator specialization and deep pipelines. The S5000 is a family of high performance software configurable processors for embedded applications. The S5000 consists of a conventional 32-bit RISC processor coupled with a programmable Instruction Set Extension Fabric (ISEF). To develop an application for the S5 the programmer identifies critical sections to be accelerated, writes one or more extension instructions as functions in a variant of the C programming language, and accesses those functions from the application program. Performance gains of more than an order of magnitude over the unaccelerated processor can be achieved.

Jeffrey M. ArnoldEmail:

相似文献

16.

可重构计算及可重构编译技术研究

漆锋滨王珊珊姜小成何王全《微电子学与计算机》2007,24(10):36-38,42

可重构计算是未来高性能计算的发展趋势,它兼具了通用计算的灵活性和专用计算的高效性,充分利用系统资源的同时,又能发挥应用程序的效率。可重构编译是推广可重构计算的关键技术,可重构编译系统能够为传统的软件编程人员提供一个体系结构透明的开发平台,并让用户真正灵活利用可重构计算平台。相似文献

17.

A Novel Reconfigurable Processor Using Dynamically Partitioned SIMD for Multimedia Applications

Chun‐Gi Lyuh Jung‐Hee Suk Ik‐Jae Chun Tae Moon Roh 《ETRI Journal》2009,31(6):709-716

In this paper, we propose a novel reconfigurable processor using dynamically partitioned single‐instruction multiple‐data (DP‐SIMD) which is able to process multimedia data. The SIMD processor and parallel SIMD (P‐SIMD) processor, which is composed of a number of SIMD processors, are usually used these days. But these processors are inefficient because all processing units (PUs) should process the same operations all the time. Moreover, the PUs can process different operations only when every SIMD group operation is predefined. We propose a processor control method which can partition parallel processors into multiple SIMD‐based processors dynamically to enhance efficiency. For performance evaluation of the proposed method, we carried out the inverse transform, inverse quantization, and motion compensation operations of H.264 using processors based on SIMD, P‐SIMD, and DP‐SIMD. Experimental results show that the DP‐SIMD control method is more efficient than SIMD and P‐SIMD control methods by about 15% and 14%, respectively. 相似文献

18.

Application of Reconfigurable Computing to a High Performance Front-End Radar Signal Processor

David R. Martinez Tyler J. Moeller Ken Teitelbaum 《The Journal of VLSI Signal Processing》2001,28(1-2):63-83

Many radar sensor systems demand high performance front-end signal processing. The high processing throughput is driven by the fast analog-to-digital conversion sampling rate, the large number of sensor channels, and stringent requirements on the filter design leading to a large number of filter taps. The computational demands range from tens to hundreds of billion operations per second (GOPS). Fortunately, this processing is very regular, highly parallel, and well suited to VLSI hardware. We recently fielded a system consisting of 100 GOPS designed using custom VLSI chips. The system can adapt to different filter coefficients as a function of changes in the transmitted radar pulse. Although the computation is performed on custom VLSI chips, there are important reasons to attempt to solve this problem using adaptive computing devices. As feature size shrinks and field programmable gate arrays become more capable, the same filtering operation will be feasible using reconfigurable electronics. In this paper we describe the hardware architecture of this high performance radar signal processor, technology trends in reconfigurable computing, and present an alternate implementation using emerging reconfigurable technologies. We investigate the suitability of a Xilinx Virtex chip (XCV1000) to this application. Results of simulating and implementing the application on the Xilinx chip is also discussed. 相似文献