NVIDIA发布CUDA 4.0 并行编程更轻松-技术开发专区

NVIDIA发布CUDA 4.0 并行编程更轻松

作者：kaduo 编辑：董建伟 2011-03-01 10:10 IT168网站原创

　　【IT168 资讯】3月1日消息，NVIDIA于昨日发布了最新版本的英伟达CUDA工具包。借助该工具包，开发人员能够开发出在英伟达GPU上运行的并行应用程序。

　　英伟达CUDA 4.0工具包旨在让并行编程变得更加容易，并且让更多开发人员能够将应用程序移植到GPU上来。因此，该版本软件包含下列三大特性：

NVIDIA发布CUDA 4.0 并行编程更轻松

　　· GPUDirect 2.0技术 – 支持一台服务器或工作站内多GPU之间的点对点通信。这让多GPU编程更加轻松并且能够提升应用程序性能。

　　· 统一虚拟寻址 (UVA) – 能够为主系统内存和显卡显存提供一个合并的存储器地址空间，让并行编程变得更快、更容易。

　　· Thrust C++模板高性能基元库 – 能够提供一系列强大的开源C++并行算法和数据结构，这些内容能够让C++开发人员的编程工作变得轻松。与使用标准模板库(STL)以及线程构件(TBB)时相比，通过利用Thrust，并行排序等例程的速度可提升5至100倍。

　　美国伊利诺伊大学厄本那香槟分校资深研究程序员John Stone表示：“统一虚拟寻址以及更快的GPU间通信速度让开发人员能够更加轻松地利用GPU的并行计算能力。”

　　Quantifi公司利率产品总监Peter Decrem指出：“人们可以通过标准模板接口利用GPU计算来为各种任务提升效率。能够处理的任务从简单的现金流生成到Libor市场模型、变额年金或CVA调整等复杂的计算，可谓是十分广泛。Thrust C++库通过处理存储器存取和分配等低级功能，从而大幅降低了入门门槛，让金融工程师在GPU增强性能的环境下能够把精力集中到算法开发上来。”

　　CUDA 4.0架构版本包含大量其它特性与功能，其中包括：

　　· MPI与CUDA应用程序相结合 – 当应用程序发出MPI收发调用指令时，例如OpenMPI等改编的MPI软件可通过Infiniband与显卡显存自动收发数据。

　　· GPU多线程共享 – 多个CPU主线程能够在一颗GPU上共享运行环境，从而使多线程应用程序共享一颗GPU变得更加轻松。

　　· 单CPU线程共享多GPU – 一个CPU主线程可以访问系统内的所有GPU。开发人员能够轻而易举地协调多颗GPU上的工作负荷，满足应用程序中“halo”交换等任务的需要。

　　· 全新的NPP图像与计算机视觉库 – 其中大量图像变换操作让开发人员能够快速开发出成像以及计算机视觉应用程序。

　　· 全新、改良的功能
　　　　· Visual Profiler中的自动性能分析功能
　　　　· Cuda-gdb中的新特性以及新增了对MacOS的支持
　　　　· 新增了对C++特性的支持，这些特性包括新建/删除以及虚拟等功能
　　　　· 全新的GPU二进制反汇编程序

　　自2011年3月4日起，只需报名参加CUDA注册开发者计划，即可免费获得英伟达CUDA Toolkit 4.0候选版，报名网址为：www.nvidia.com/paralleldeveloper。 CUDA注册开发者计划可提供丰富的工具、资源以及信息，让并行应用程序开发人员能够最大限度地发挥英伟达CUDA技术的潜力。

关注我们