首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向现代GPU的Winograd卷积加速研究
引用本文:童敢,黄立波,吕雅帅.面向现代GPU的Winograd卷积加速研究[J].电子学报,2024(1):244-257.
作者姓名:童敢  黄立波  吕雅帅
作者单位:1. 国防科技大学计算机学院;2. 华为技术有限公司
基金项目:国家自然科学基金(No.61872374)~~;
摘    要:卷积运算是现代卷积神经网络中必不可少的组成部分,同时也是最耗时的.为了解决卷积算子的性能问题,包括快速傅里叶变换(Fast Fourier Transform,FFT)和Winograd在内的快速卷积算法被提出. Winograd卷积可被用于提高小卷积核的推理性能,是目前卷积神经网络中的主流实现方法 .然而,Winograd卷积在许多高度优化的深度神经网络库和深度学习编译器中的实现比较低效.由于Winograd卷积的四个阶段的复杂数据依赖关系,面向GPU对其进行优化非常具有挑战性.本文针对现代GPU体系结构优化了Winograd卷积算子的性能.本文提出了Winograd计算阶段的等价变化及其利用Tensor Core进行计算的无同步实现,并进一步提出了利用不同GPU内存层级的部分计算核融合方法 PKF(Partial Kernel Fusion).基于张量虚拟机(Tensor Virtual Machine,TVM)和代码重构器PKF-Reconstructor(Partial Kernel Fusion Reconstructor),实现了高性能的Winograd卷积.对真实应用中卷...

关 键 词:Winograd卷积  低精度  部分计算核融合  卷积加速  GPU内存层级  Tensor  Core
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号