vGPU 7.X新特性解读，NVIDIA为何力推虚拟GPU？-技术开发专区

vGPU 7.X新特性解读，NVIDIA为何力推虚拟GPU？

作者：老鱼编辑：覃里 2019-01-28 16:07 IT168网站原创

　　【IT168 评论】NVIDIA一直在不遗余力的宣传和推广vGPU(虚拟GPU)，vGPU版本的迭代速度也非常快，从2013年，vGPU发布第一个版本到现在的7.X，几乎每年至少都有一个甚至以上的大版本发布。

NVIDIA GPU虚拟化高级解决方案架构师张洁

　　近日，在北京的一场沟通会上，NVIDIA GPU虚拟化高级解决方案架构师张洁，NVIDIA中国区解决方案架构师李浩南分享了最新版本7.X的新特性。

　　NVIDIA vGPU 7.X新特性

　　NVIDIA把vGPU7.0和7.1统称为7.X，vGPU 7.1则是刚刚发布的最新版本，vGPU 7.X有以下几点特性：

　　1、多GPU支持。7.X版本不仅可以做GPU资源切片即所谓的“一虚多”，来满足对计算力要求不高的用户场景，也可以满足对计算力要求高的用户需求，可以把多个物理GPU虚拟化后分配给某一个用户。

　　2、vMotion动态迁移的实现。如数据中心热迁移，7.X版本已经可以支持VMware和Citrix的服务器虚拟化平台，可以在数据中心进行业务不中断的迁移。数据中心用户可以把大量的GPU业务放到虚拟化平台上，放到GPU资源池里进行实现。

　　3、物理GPU特性向vGPU移植。传统物理环境中的特性都会被移植到虚拟化环境中。 NVIDIA的目标是让vGPU的特性和物理GPU特性一致，来方便传统的物理GPU用户通过虚拟GPU解决方案平滑、无缝地迁移到数据中心。

　　如物理GPU方面，NVIDIA此前发布了整机解决方案DGX-1，DGX-1可以配合NVIDIA GPU Cloud (NGC)把NVIDIA优化好的人工智能神经网络框架下载到DGX-1这种一机8卡或一机16卡的环境里训练。现在，用户可以把NGC配合NVIDIA vGPU软件来使用，把NGC上优化好的Docker镜像直接下载到vGPU环境里，进行推理和训练。

　　4、支持Tesla T4，这一全新基于图灵架构的GPU。有Tensor Core可做人工智能加速，RT Core做实时光线追踪加速，有CUDA Core做图形和计算。

　　NVIDIA力推vGPU意欲何为?

　　云计算、人工智能领域的快速发展，让异构计算应用场景飙升，这就对GPU等专业计算芯片提出了虚拟化和上云的强烈需求。

　　众所周知，人工智能市场是个超级巨大的市场，李开复就曾说过，人工智能的市场价值将超过整个互联网世界。而异构计算是人工智能计算的载体，对于芯片厂商而言，这一市场绝对不容有失。

　　事实上，对GPU虚拟化的研发并不只有NVIDIA一家，英特尔，AMD等多家厂商都在做。只不过，作为GPU行业的老大，NVIDIA在GPU虚拟化的研发和产品化上，要略微领先对手一到两年，但这并不意味着绝对差距。

　　因此， NVIDIA大力推广 vGPU就很好理解了。从更高的角度讲，要保证GPU行业龙头老大的地位。从业务角度而言，vGPU可以弥补纯硬件GPU生命周期管理薄弱的环节。而从版本更新看，版本的更新能扩展用户对GPU更广泛的使用，从而促进GPU被更为广泛的采用。

　　此次7.X版本也不列外，比如，对计算力要求较高的用户可以用vGPU 7.1解决之前vGPU只能一切多的使用问题;有了vGPU 7.1新特性动态迁移的实现，用户进行迁移和升级将不再痛苦。

　　事实上，从vGPU第一个版本的解决方案发布到现在的7.X，vGPU已经发生了巨大的变化。如vGPU已经不再受限于硬件，现在能在所有的Tesla数据中心GPU上做虚拟化。而7.X版本更是具有里程碑意义的版本，这个版本里加入了计算功能，切割出来的vGPU既可以做图形又可以做计算。

　　最后来看生态，当对手还在研究技术的时候，NVIDIA已经开始在布局完善生态了。最早的vGPU解决方案是NVIDIA和服务器虚拟化厂商联合推出的。2013年NVIDIA只支持Citrix服务器虚拟化XenServer，2015年，NVIDIA支持三家虚拟化平台，包括VMware等。而现在已经支持了共计7家虚拟化平台。vGPU 6.0开始，NVIDIA对国内的厂商进行了大范围的支持，如基于NVIDIA vGPU，新华三推全新云桌面解决方案，深信服和英伟达联合发布的基于KVM的vGPU解决方案等。