期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王小庆金先龙《计算力学学报》2015,32(2):256-261

大型工程数值仿真中,在前处理阶段需要生成千万甚至亿量级的网格,传统的串行网格生成方法由于内存和时间的限制,难以处理如此规模的网格。针对此问题,本文提出了一种大规模网格并行生成方法。首先基于推进波前法对几何模型进行初始体网格划分,接着利用图论理论进行区域分解,并通过表面单元恢复保持其几何精度,然后通过分裂法进行网格的并行生成。将所述方法应用到实际大型工程数值仿真前处理阶段,结果表明所述方法可以获得较好的并行效率,同时所产生的网格质量可以满足后续计算需要。相似文献

2.

求解三维流固耦合问题的一种全隐全耦合区域分解并行算法

邓小毛廖子菊《力学学报》2022,54(12):3513-3523

三维流固耦合问题的非结构网格数值算法在很多工程领域都有重要应用, 目前现有的数值方法主要基于分区算法, 即流体和固体区域分别进行求解, 因此存在收敛速度较慢以及附加质量导致的稳定性问题, 此外, 该类算法的并行可扩展性不高, 在大规模应用计算方面也受到一定限制．本文针对三维非定常流固耦合问题, 提出一种基于区域分解的全隐全耦合可扩展并行算法．首先基于任意拉格朗日?欧拉框架建立流固耦合控制方程, 然后时间方向采用二阶向后差分隐式格式、空间方向采用非结构稳定化有限元方法进行离散．对于大规模非线性离散系统, 构造一种结合非精确Newton法、Krylov子空间迭代法与区域分解Schwarz预条件子的Newton-Krylov-Schwarz (NKS) 并行求解算法, 实现流体、固体和动网格方程的一次性整体求解．采用弹性障碍物绕流的标准测试算例对数值方法的准确性进行了验证, 数值性能测试结果显示本文构造的全隐全耦合算法具有良好的稳定性, 在不同的物理参数下具有良好的鲁棒性, 在“天河二号”超级计算机上, 当并行规模从192增加到3072个处理器核时获得了91%的并行效率．性能测试结果表明本文构造的NKS算法有望应用于复杂区域流固耦合问题的大规模数值模拟研究中．相似文献

3.

地下水流并行有限层方法及同伦反演研究

王少伟徐进杨伟涛《计算力学学报》2020,37(6):756-762

根据有限层求解格式存在的解耦性，实现了地下水三维流问题的高效并行化计算。在此基础上，结合非线性同伦方法，提出了地下水参数反演分析的并行同伦算法，利用MATLAB编译了相应的正反演计算程序。与已有解析解和有限差分解的对比以及数值算例，验证了并行化正反演方法及程序的正确性，探讨了并行算法的计算效率。研究表明，并行方法可以有效提高计算速度，较串行方法具有明显优势，同时同伦反演方法具有大范围收敛的特点，不依赖于参数值的初始选取。相似文献

4.

面向复杂几何模型的并行四面体网格生成方法

徐权冷珏琳杨洋刘田田郑澎《计算力学学报》2023,40(1):140-145

面向大规模工程计算等数值模拟领域,提出了一种支持复杂几何模型的大规模四面体网格并行生成方法。该方法以复杂几何模型作为输入,首先采用串行网格生成方法生成初始四面体网格,然后通过两级区域分解方法将初始网格分解为多个子网格并分配到相应的进程中,进程间并行地提取出子网格的表面网格,并基于几何模型对面网格进行贴体加密,最后对加密后的面网格采用Delaunay方法重新生成四面体网格,该方法可以更好地适应高性能计算机体系结构,较好地克服了并行方法中并行性能和网格质量不能兼顾的问题。对三峡大坝模型进行测试和验证,证明该方法具有良好的并行效率和可扩展性,可以在数万处理器核上并行生成数十亿高质量四面体网格。相似文献

5.

基于复合叉树的自适应笛卡尔网格应用研究

王俊杰高正红《应用力学学报》2006,23(4):623-626

采用复合叉树自适应笛卡尔网格和有限体积法求解三维Euler方程,在网格生成过程中,以模型几何外形、模型表面曲率为基础,构建了基于复合叉树的网格生成和加密方法。在流场计算过程中,又针对流场变化特征,建立了基于复合叉树的网格各向异性拆分模式,同时采用以中心差分为基础的Jameson有限体积法。通过对M6机翼在跨音速情况下的数值仿真,表明计算结果与风洞实验结果符合良好,同时也表明本算法具有高分辨率、节省机时,提高计算效率等特点。相似文献

6.

利用高阶分区并行算法实现直接数值模拟

邱剑顾兆林《计算力学学报》2008,25(1):20-24

在基于MPI环境的分布式内存机群上,结合高阶WENO-RF格式的特点,实现了5阶WENO-RF格式的分区并行计算方法,计算精度不受分区和节点数量影响。使用该分区并行算法以三维可压缩时间发展混合层为例进行了直接数值模拟,验证了并行算法的准确性,表明机群并行运算可以显著扩展微机的计算能力,并行效率高,减少了计算的墙上时间,适合在小型高速局域网内进行大规模数值模拟计算。相似文献

7.

耦合GPU与PCG的EFG法并行计算及应用研究

龚曙光廖宇犁刘奇良张建平卢海山《应用力学学报》2017,(1):100-106

针对迭代法求解无网格Galerkin法中线性方程组收敛速度慢的问题,提出了一种耦合GPU和预处理共轭梯度法的无网格Galerkin法并行算法,在对其总体刚度矩阵、总体惩罚刚度矩阵进行并行联合组装的同时即可得到对角预处理共轭矩阵,有效地节省了GPU的存储空间和计算时间;通过采用四面体积分背景网格,提高了所提算法对三维复杂几何形状问题的适应性。通过2个三维算例验证了所提算法的可行性,且预处理共轭梯度法与共轭梯度法相比,其迭代次数最大可减少1686倍,最大的迭代时间可节省1003倍;同时探讨了加速比与线程数和节点个数之间的关系,当线程数为64时其加速比可达到最大,且预处理共轭梯度法的加速比与共轭梯度法相比可增大4.5倍,预处理共轭梯度法的加速比最大达到了88.5倍。相似文献

8.

无网格Galerkin法GPU加速并行计算及其应用

龚曙光刘奇良卢海山周志勇张佳《计算力学学报》2015,32(6):745-751

针对无网格Galerkin法计算耗时的问题,采用逐节点对法来组装刚度矩阵、共轭梯度法求解基于CSR格式存储的稀疏线性方程组,提出了一种利用罚函数法施加本质边界条件的EFG法GPU加速并行算法,给出了刚度矩阵和惩罚刚度矩阵的统一格式,以及GPU加速并行算法的流程图。编写了基于CUDA构架平台的GPU程序,且在NVIDIA GeForce GTX 660显卡上通过数值算例对所提算法进行了性能测试与分析比较,探讨了影响加速比的因素。算例结果验证了所提算法的可行性,并在满足计算精度的前提下,其加速比最大可达17倍;同时线性方程组的求解对加速比起决定性影响。相似文献

9.

基于AFT-Delaunay的二维解耦并行网格生成算法

张宇航余飞昌继海曹杰关振群《计算力学学报》2017,34(2):191-196

面向平面任意几何区域网格生成,提出了一种将波前法AFT(Advancing Front Technique)与Delaunay法相结合的解耦并行网格生成算法。算法主要思想是沿着求解几何区域惯性轴,采用扩展的AFT-Delaunay算法生成高质量三角形网格墙,递归地将几何区域动态划分成多个彼此解耦的子区域;采用OpenMP多线程并行技术,将子区域分配给多个CPU并行生成子区域网格;子区域内部的网格生成复用AFT-Delaunay算法,保证了生成网格的质量、效率和一致性要求。本算法优先生成几何边界与交界面网格,有利于提高有限元计算精度;各个子区域的网格生成彼此完全解耦,因此并行网格生成过程无需通信。该方法克服了并行交界面网格质量恶化难题,且具有良好的并行加速比,能够全自动、高效率地并行生成高质量的三角网格。相似文献

10.

图形处理器在大规模力学问题计算中的应用进展

夏健明魏德敏《力学进展》2010,40(1):57-63

现代图形处理器(graphics processing units,GPU)具有较强的并行数值运算功能.该文简单介绍了GPU的硬件结构,基于GPU通用计算的数据结构和实现方法,以及用于编写片元程序的OpenGL着色语言.介绍了应用GPU计算大规模力学问题的研究进展.简要介绍了以下内容:应用GPU模拟自然界的流体现象,其实质是使用有限差分法求解Navier-Stokes方程;应用GPU实现有限元法计算,使用基于GPU的共轭梯度法求解有限元方程组;应用GPU实现分子动力学计算,用GPU计算原子间短程作用力,并生成邻近原子列表;应用GPU实现量子力学Monte Carlo计算;应用GPU实现n个物体的引力相互作用,用GPU纹理存储n个物体的位置、质量、速度和加速度等.对基于图象处理器和中央处理器的计算作比较,已完成了以下基于GPU的计算:实现求解线性方程组的高斯消元法和共轭梯度法,并应用于大规模的有限元计算;加速无网格法计算;加速线性和非线性分子结构力学方法计算;用于计算分析碳纳米管的力学性能.指出GPU在大规模力学计算中的研究方向. 相似文献

11.

Parallel computing of discrete element method on multi-core processors

Yusuke Shigeto Mikio Sakai 《Particuology》2011,9(4):398-405

This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer simulations in various fields. We propose a new algorithm for multi-thread parallel computation of DEM, which makes effective use of the available memory and accelerates the computation. This study shows that memory usage is drastically reduced by using this algorithm. To show the practical use of DEM in industry, a large-scale powder system is simulated with a complicated drive unit. We compared the performance of the simulation between the latest GPU and CPU processors with optimized programs for each processor. The results show that the difference in performance is not substantial when using either GPUs or CPUs with a multi-thread parallel algorithm. In addition, DEM algorithm is shown to have high scalability in a multi-thread parallel computation on a CPU. 相似文献

12.

基于CUDA的有限元矩阵并行装配算法研究

胡斌星李新国孙鹏《计算力学学报》2020,37(3):368-376

构建航天飞行器的结构有限元模型是准确模拟飞行仿真、完成飞行器在轨飞行阶段结构故障监测和诊断的基础。采用细长体飞行器简化梁模型，提出新的基于CUDA（Compute Unified Device Architecture）的有限元单元刚度矩阵生成和总刚度矩阵组装算法。依据梁单元矩阵的对称性，结合GPU硬件架构提出并行生成算法并进行改进。为有效减少装配时间，在装配过程中采用着色算法，提出了基于GPU（Graphics Processing Unit）共享内存的非零项组装策略，通过在不同计算平台下算例对比，验证了新算法的快速性。数值算例表明，本文算法的求解效率较高，针对一定计算规模内的模型可满足快速计算与诊断的实时性要求。相似文献

13.

A parallel unstructured dynamic mesh adaptation algorithm for 3‐D unsteady flows

Young Min Park Oh Joon Kwon 《国际流体数值方法杂志》2005,48(6):671-690

An unstructured dynamic mesh adaptation and load balancing algorithm has been developed for the efficient simulation of three‐dimensional unsteady inviscid flows on parallel machines. The numerical scheme was based on a cell‐centred finite‐volume method and the Roe's flux‐difference splitting. Second‐order accuracy was achieved in time by using an implicit Jacobi/Gauss–Seidel iteration. The resolution of time‐dependent solutions was enhanced by adopting an h‐refinement/coarsening algorithm. Parallelization and load balancing were concurrently achieved on the adaptive dynamic meshes for computational speed‐up and efficient memory redistribution. A new tree data structure for boundary faces was developed for the continuous transfer of the communication data across the parallel subdomain boundary. The parallel efficiency was validated by applying the present method to an unsteady shock‐tube problem. The flows around oscillating NACA0012 wing and F‐5 wing were also calculated for the numerical verification of the present dynamic mesh adaptation and load balancing algorithm. Copyright © 2005 John Wiley & Sons, Ltd. 相似文献

14.

A massively parallel GPU‐accelerated model for analysis of fully nonlinear free surface waves

A. P. Engsig‐Karup Morten G. Madsen Stefan L. Glimberg 《国际流体数值方法杂志》2012,70(1):20-36

We implement and evaluate a massively parallel and scalable algorithm based on a multigrid preconditioned Defect Correction method for the simulation of fully nonlinear free surface flows. The simulations are based on a potential model that describes wave propagation over uneven bottoms in three space dimensions and is useful for fast analysis and prediction purposes in coastal and offshore engineering. A dedicated numerical model based on the proposed algorithm is executed in parallel by utilizing affordable modern special purpose graphics processing unit (GPU). The model is based on a low‐storage flexible‐order accurate finite difference method that is known to be efficient and scalable on a CPU core (single thread). To achieve parallel performance of the relatively complex numerical model, we investigate a new trend in high‐performance computing where many‐core GPUs are utilized as high‐throughput co‐processors to the CPU. We describe and demonstrate how this approach makes it possible to do fast desktop computations for large nonlinear wave problems in numerical wave tanks (NWTs) with close to 50/100 million total grid points in double/single precision with 4 GB global device memory available. A new code base has been developed in C++ and compute unified device architecture C and is found to improve the runtime more than an order in magnitude in double precision arithmetic for the same accuracy over an existing CPU (single thread) Fortran 90 code when executed on a single modern GPU. These significant improvements are achieved by carefully implementing the algorithm to minimize data‐transfer and take advantage of the massive multi‐threading capability of the GPU device. Copyright © 2011 John Wiley & Sons, Ltd. 相似文献

15.

三维气相爆轰动态并行计算程序设计与开发

王成韩文虎宁建国《计算力学学报》2012,29(6):948-953

在三维气相爆轰数值研究中,网格精度和计算域的规模导致网格数占有非常庞大的计算资源,进而给数值模拟带来了极大的挑战。本文针对这一难题,采用5阶WENO格式对带化学反应Euler方程组进行空间离散,基于MPI（MessagePassingInterface）并行模式开发了高精度动态并行代码,并对爆轰波在带有障碍物的三维方形管道中的传播过程进行计算。计算结果表明,高精度动态并行计算能够很好的模拟三维气相爆轰波在大尺寸管道中的传播,不仅提高了计算效率,而且提高了爆轰波阵面的分辨率。与高精度静态并行相比,高精度动态并行计算减少了界面数据通信时间,从而进一步提高了计算效率。因此,高精度动态并行程序为探究三维气相爆轰新的物理机制提供有效的手段。相似文献

16.

基于FTM算法的GPU加速 总被引：1，自引：1，他引：0

曾良杜煜昊张莹胡昱洪瑶陈虎《计算力学学报》2017,34(4):511-516

为了解决FTM(Front Tracking Method)算法在计算机中计算耗时长的问题,利用CUDA(Compute Unified Device Architecture)来实现FTM算法在GPU中的并行计算。结合GPU并行计算架构的特性以及FTM算法的特点,本文通过共享内存的引入、线程块划分和线程块共享内存边界元素的纳入、迭代方法的改进和迭代过程中存储结构的变换等方法,提出了将FTM算法中的网格计算以及界面标记点处理方法在GPU中的实现方式。最后,通过模拟单气泡在静止液体中的自由上升运动,验证了FTM在GPU中计算的可行性与计算效率的提升。相似文献

17.

Three-dimensional finite element model for metal displacement and heat transfer in squeeze casting processes

《Comptes Rendus Mecanique》2007,335(5-6):287-294

A three-dimensional finite element model for the numerical simulation of metal displacement and heat transfer in the squeeze casting process has been developed. In the model, a numerical approach, termed as ‘Quasi-static Eulerian’, is proposed, in which the dynamic metal displacement process is divided into a certain number of sub-cycles. In each of the sub-cycles, the dieset configuration is assumed to be static and a fixed finite element mesh is created, thus making the Eulerian approach applicable to the solution of metal flow and heat transfer. Mesh-to-mesh data mapping is carried out for any two adjacent sub-cycles to ensure that the physical continuity of the real metal displacement process is represented. A numerical example is presented, which shows the application of the present model to geometrically complex three-dimensional squeeze casting problems. To cite this article: R.W. Lewis et al., C. R. Mecanique 335 (2007). 相似文献