CUDA 简介-技术开发专区

CUDA 简介

作者：chinacodec的博客编辑：覃里 2009-11-26 15:07 来源：IT168�

　　Grid、block 和 thread 的关系，如下图所示：

　　每个 thread 都有自己的一份 register 和 local memory 的空间。同一个 block 中的每个 thread 则有共享的一份 share memory。此外，所有的 thread(包括不同 block 的 thread)都共享一份 global memory、constant memory、和 texture memory。不同的 grid 则有各自的 global memory、constant memory 和 texture memory。这些不同的内存的差别，会在之后讨论。

　　执行模式

　　由于显示芯片大量并行计算的特性，它处理一些问题的方式，和一般 CPU 是不同的。主要的特点包括：

　　内存存取 latency 的问题：CPU 通常使用 cache 来减少存取主存储器的次数，以避免内存 latency 影响到执行效率。显示芯片则多半没有 cache(或很小)，而利用平行化执行的方式来隐藏内存的 latency(即，当第一个 thread 需要等待内存读取结果时，则开始执行第二个 thread，依此类推)。

　　分支指令的问题：CPU 通常利用分支预测等方式来减少分支指令造成的 pipeline bubble。显示芯片则多半使用类似处理内存 latency 的方式。不过，通常显示芯片处理分支的效率会比较差。

　　因此，最适合利用 CUDA 处理的问题，是可以大量平行化的问题，才能有效隐藏内存的 latency，并有效利用显示芯片上的大量执行单元。使用 CUDA 时，同时有上千个 thread 在执行是很正常的。因此，如果不能大量平行化的问题，使用 CUDA 就没办法达到最好的效率了。

第1页：GPGPU 的优缺点 & CUDA 架构第2页：Grid、block 和 thread 的关系 & 执行模式

关注我们