NVIDIA GPU上的Linpack性能测试初探-技术开发专区

NVIDIA GPU上的Linpack性能测试初探

作者：IT168 张先轶编辑：覃里 2010-07-27 00:00 IT168网站原创

　　4. 结论

　　本文初步介绍了一种在CPU和GPU的混合架构下的HPL软件包的移植和优化方法。在单机与16个GPU的机群环境下进行了初步的Linpack测试，分别为85.98GFLops和761.2GFlops。

　　本文介绍的实现方式，存在两个比较明显的不足：一个是CPU与GPU对于dgemm和dtrsm是采取静态划分的策略，比例因子R是固定的，可知随着矩阵的分解，计算量是变化并逐渐减小的，所以静态划分存在一定的负载不均衡的情况，应该使用动态划分策略，即根据本次CPU与GPU的实际运行时间，更新下一次的R值;另一个是CPU与GPU间传输的数据量比较大(进行了大量矩阵的传输)，对PCIe的带宽压力较大，需要进一步的优化数据传输。

第1页：Linpack测试简介&HPL软件包移植和优化第2页：Linpack测试结果第3页：结论

关注我们