技术开发 频道

NVIDIA GPU上的Linpack性能测试初探

  4. 结论

  本文初步介绍了一种在CPU和GPU的混合架构下的HPL软件包的移植和优化方法。在单机与16个GPU的机群环境下进行了初步的Linpack测试,分别为85.98GFLops和761.2GFlops。

  本文介绍的实现方式,存在两个比较明显的不足:一个是CPU与GPU对于dgemm和dtrsm是采取静态划分的策略,比例因子R是固定的,可知随着矩阵的分解,计算量是变化并逐渐减小的,所以静态划分存在一定的负载不均衡的情况,应该使用动态划分策略,即根据本次CPU与GPU的实际运行时间,更新下一次的R值;另一个是CPU与GPU间传输的数据量比较大(进行了大量矩阵的传输),对PCIe的带宽压力较大,需要进一步的优化数据传输。

 结论

1
相关文章