排序方式: 共有8条查询结果,搜索用时 15 毫秒
1
1.
求解非对称线性方程组的QMRGCGS方法 总被引:2,自引:1,他引:1
1 引言 求解非对称线性方程组Ax=b的双共轭梯度方法(BCG)[3]和它的变形共轭梯度平方方法(CGS)[6]都有典型的不规则收敛行为,后来Freund和Nachtigal提出一种BCG类方法,即拟极小剩余方法(QMR)[7],用来补救BCG方法的收敛性并且产生了光滑的收敛曲线。然而,象BCG方法一样,QMR方法要用到系数矩阵A及其转置A~T与向量的乘积,为了解决这一问题,Freund提出TFQMR方法,此方法具有拟极小剩余性,同时不需用到A~T与向量的乘积。 相似文献
2.
BLAS库是基本线性代数子程序库,是许多大型科学与工程计算的核心计算程序,FitenBLAS库是在多核多线FT1000微处理器上开发的基本线性代数库,其研制对FT1000微处理器在科学与工程计算中的应用具有重要意义.根据多级存储结构和寄存器的数目,设计了向量与向量、矩阵与向量和矩阵与矩阵运算的多级循环展开方法,采用指令调度、数据预取等通用优化技术,优化BLAS库串行程序.对于BLAS3子程序,设计了矩阵乘无冗余数据拷贝分块算法,采用指令重排、访存与计算的重叠、分块等技术优化矩阵乘子程序,基于矩阵乘子程序实现了其他BLAS3子程序.研制了汇编线性代数程库FitenBLAS,其核心子程序矩阵乘的双精度计算性能达到6.91Gflops,是峰值性能的86.4%. 相似文献
3.
4.
5.
6.
7.
周期三对角线性方程组的分布式并行算法 总被引:1,自引:0,他引:1
提出一种求解来格对角占优周期三对角线性方程组的并行算法(简称PAA算法),新算法计算复杂性为O(8n),通讯复杂性为O(1),目前求解此类方程组的最优并行算法的计算复杂性为O(17n),通讯复杂性为O(logP),在SGI Indy工作站网络环境下的试算结果表明,加束比呈线性增加并行效率达到90%。 相似文献
8.
DSP具有能效比高的特点,可以用于通用高性能计算.矩阵乘是许多科学与计算问题的核心算法,在DSP上取得高性能具有重要的理论和现实意义.面向通用DSP,提出了矩阵乘并行算法,建立了矩阵乘峰值性能模型,根据性能模型,构建了矩阵乘性能达Tflops级DSP体系结构参数配置,对通用DSP的设计参数给出了明确的性能指标要求,包括乘加流水线数量、寄存器数目、带宽和延迟. 相似文献
1