技术开发 频道

vGPU 7.X新特性解读,NVIDIA为何力推虚拟GPU?

  【IT168 评论】NVIDIA一直在不遗余力的宣传和推广vGPU(虚拟GPU),vGPU版本的迭代速度也非常快,从2013年,vGPU发布第一个版本到现在的7.X,几乎每年至少都有一个甚至以上的大版本发布。


NVIDIA GPU虚拟化高级解决方案架构师张洁

  近日,在北京的一场沟通会上,NVIDIA GPU虚拟化高级解决方案架构师张洁,NVIDIA中国区解决方案架构师李浩南分享了最新版本7.X的新特性。

  NVIDIA vGPU 7.X新特性

  NVIDIA把vGPU7.0和7.1统称为7.X,vGPU 7.1则是刚刚发布的最新版本,vGPU 7.X有以下几点特性:

  1、多GPU支持。7.X版本不仅可以做GPU资源切片即所谓的“一虚多”,来满足对计算力要求不高的用户场景,也可以满足对计算力要求高的用户需求,可以把多个物理GPU虚拟化后分配给某一个用户。

  2、vMotion动态迁移的实现。如数据中心热迁移,7.X版本已经可以支持VMware和Citrix的服务器虚拟化平台,可以在数据中心进行业务不中断的迁移。数据中心用户可以把大量的GPU业务放到虚拟化平台上,放到GPU资源池里进行实现。

  3、物理GPU特性向vGPU移植。传统物理环境中的特性都会被移植到虚拟化环境中。 NVIDIA的目标是让vGPU的特性和物理GPU特性一致,来方便传统的物理GPU用户通过虚拟GPU解决方案平滑、无缝地迁移到数据中心。

  如物理GPU方面,NVIDIA此前发布了整机解决方案DGX-1,DGX-1可以配合NVIDIA GPU Cloud (NGC)把NVIDIA优化好的人工智能神经网络框架下载到DGX-1这种一机8卡或一机16卡的环境里训练。现在,用户可以把NGC配合NVIDIA vGPU软件来使用,把NGC上优化好的Docker镜像直接下载到vGPU环境里,进行推理和训练。

  4、支持Tesla T4,这一全新基于图灵架构的GPU。有Tensor Core可做人工智能加速,RT Core做实时光线追踪加速,有CUDA Core做图形和计算。

  NVIDIA力推vGPU意欲何为?

  云计算、人工智能领域的快速发展,让异构计算应用场景飙升,这就对GPU等专业计算芯片提出了虚拟化和上云的强烈需求。

  众所周知,人工智能市场是个超级巨大的市场,李开复就曾说过,人工智能的市场价值将超过整个互联网世界。而异构计算是人工智能计算的载体,对于芯片厂商而言,这一市场绝对不容有失。

  事实上,对GPU虚拟化的研发并不只有NVIDIA一家,英特尔,AMD等多家厂商都在做。只不过,作为GPU行业的老大,NVIDIA在GPU虚拟化的研发和产品化上,要略微领先对手一到两年,但这并不意味着绝对差距。

  因此, NVIDIA大力推广 vGPU就很好理解了。从更高的角度讲,要保证GPU行业龙头老大的地位。从业务角度而言,vGPU可以弥补纯硬件GPU生命周期管理薄弱的环节。而从版本更新看,版本的更新能扩展用户对GPU更广泛的使用,从而促进GPU被更为广泛的采用。

  此次7.X版本也不列外,比如,对计算力要求较高的用户可以用vGPU 7.1解决之前vGPU只能一切多的使用问题;有了vGPU 7.1新特性动态迁移的实现,用户进行迁移和升级将不再痛苦。

  事实上,从vGPU第一个版本的解决方案发布到现在的7.X,vGPU已经发生了巨大的变化。如vGPU已经不再受限于硬件,现在能在所有的Tesla数据中心GPU上做虚拟化。而7.X版本更是具有里程碑意义的版本,这个版本里加入了计算功能,切割出来的vGPU既可以做图形又可以做计算。

  最后来看生态,当对手还在研究技术的时候,NVIDIA已经开始在布局完善生态了。最早的vGPU解决方案是NVIDIA和服务器虚拟化厂商联合推出的。2013年NVIDIA只支持Citrix服务器虚拟化XenServer,2015年,NVIDIA支持三家虚拟化平台,包括VMware等。而现在已经支持了共计7家虚拟化平台。vGPU 6.0开始,NVIDIA对国内的厂商进行了大范围的支持,如基于NVIDIA vGPU,新华三推全新云桌面解决方案,深信服和英伟达联合发布的基于KVM的vGPU解决方案等。

0
相关文章