CUDA 3.0 编程接口-技术开发专区

CUDA 3.0 编程接口

作者：IT168 风辰译编辑：覃里 2010-03-23 17:55 来源：IT168�

　　线性存储器也可以通过cudaMallocPitch()和cudaMalloc3D()分配。在分配2D或3D数组的时候，推荐使用，因为这些分配增加了合适的填充以满足5.3.2.1节的对齐要求，在按行访问时或者在二维数组和设备存储器的其它区域间复制(用cudaMemcpy2D()和cudaMemcpy3D()函数)时，保证了非常好的性能。返回的步长(pitch,stride)必须用于访问数组元素。下面的代码分配了一个尺寸为width*height的二维浮点数组，同时演示了怎样在设备代码中遍历数组元素。

// Host code
float* devPtr; int pitch;
cudaMallocPitch((void**)&devPtr, &pitch,
width * sizeof(float), height);
MyKernel<<<100, 512>>>(devPtr, pitch);
// Device code
__global__ void MyKernel(float* devPtr, int pitch) {
for (int r = 0; r < height; ++r) {
float* row = (float*)((char*)devPtr + r * pitch);
for (int c = 0; c < width; ++c) {
float element = row[c];

演示

// Host code
cudaPitchedPtr devPitchedPtr;
cudaExtent extent = make_cudaExtent(64, 64, 64);
cudaMalloc3D(&devPitchedPtr, extent);
MyKernel<<<100, 512>>>(devPitchedPtr, extent);
// Device code
__global__ void MyKernel(cudaPitchedPtr devPitchedPtr, cudaExtent extent) {
char* devPtr = devPitchedPtr.ptr;
size_t pitch = devPitchedPtr.pitch;
size_t slicePitch = pitch * extent.height;
for (int z = 0; z < extent.depth; ++z) {
char* slice = devPtr + z * slicePitch;
for (int y = 0; y < extent.height; ++y) {
float* row = (float*)(slice + y * pitch);
for (int x = 0; x < extent.width; ++x) {

　　参考手册列出了在cudaMalloc()分配的线性存储器，cudaMallocPitch()或cudaMalloc3D()分配的线性存储器，CUDA数组和为声明在全局存储器和常量存储器空间分配的存储器之间拷贝的所有各种函数。

　　下面的例子代码复制了一些主机存储器数组到常量存储器中：

__constant__ float constData[256];
float data[256];
cudaMemcpyToSymbol(constData, data, sizeof(data));

　　为声明在全局存储器空间的变量分配的存储器的地址，可以使用cudaGetSymbolAddress()函数检索到。分配的存储器的尺寸可以通过cudaGetSymbolSize()函数获得。

第1页：用nvcc编译流程第2页：用nvcc编译的各种兼容性第3页：CUDA C 第4页：线性存储器第5页：没有使用共享存储器的矩阵相乘第6页：共享存储器实现矩阵相乘第7页：多设备 & 纹理存储器第8页：纹理参考声明 & 参考属性第9页：纹理绑定第10页：内核应用中简单的转换第11页：分页锁定主机存储器第12页：异步并发执行第13页：流管理并发第14页：事件 & 同步调用第15页：图形学互操作性第16页：Direct3D互操作性 & Direct3D 9版本第17页：Direct3D 10版本第18页：Direct3D 11 版本第19页：错误处理 & 使用设备模拟模式调试

关注我们