适用于申威众核架构的稀疏矩阵-矩阵乘法 |
| |
引用本文: | 刘侃,杨磊,薛巍,陈文光.适用于申威众核架构的稀疏矩阵-矩阵乘法[J].计算物理,2024(1):22-32. |
| |
作者姓名: | 刘侃 杨磊 薛巍 陈文光 |
| |
作者单位: | 1. 清华大学计算机科学与技术系;2. 国家超级计算无锡中心 |
| |
基金项目: | 国家自然科学基金项目(U2242210)资助; |
| |
摘 要: | 本文提出新一代申威众核架构上稀疏通用矩阵-矩阵乘法(SpGEMM)的并行算法swSpGEMM。设计轻量级并行任务划分有效地应对了矩阵非零元分布引起的负载不均衡问题;针对累加过程中的不规则访存和指令流水低效问题,设计了分层稀疏累加器,在不同输入特征下高效利用申威从核层次化内存,且减少了整数查找中的指令间依赖,更有效地发挥硬件的计算能力。SuiteSparse稀疏矩阵测试集中较大规模输入矩阵上,swSpGEMM的性能相比Intel Skylake双CPU上的MKL和NVIDIA A100上的cuSPARSE分别加速了21.1%和95.3%。
|
关 键 词: | 申威众核架构 稀疏矩阵计算 矩阵-矩阵乘法 |
|
|