技术开发 频道

ZILLIZ AI数据中台:打破数据处理瓶颈,释放AI效能

  【IT168 专访】在最近结束的第十届中国数据库技术大会(DTCC 2019)上,ZILLIZ得到了众多专业评委的一致认可,获选为“2019中国数据库技术年度评选——年度创新企业”。这家成立于2016年的企业,凭借对技术发展趋势的精准把握,以及创新的优秀产品,在短短3年内得到了飞跃式的发展。

  目前,ZILLIZ已累计获得来自多家一线投资机构的上亿元人民币投资,并且与浪潮、NVIDIA、和IBM等行业领先的硬件设施提供商,以及AWS、微软Azure等领先云服务商建立了亲密的合作伙伴关系。

  作为一家数据库厂商,ZILLIZ专注于研发基于异构众核加速的新一代数据库系统,其核心产品为“MegaWise”数据库。据官方介绍,MegaWise使用GPU处理器上的成千上万个处理核心进行超大规模并行数据处理,实现数据库操作的加速。和传统数据库相比,MegaWise查询性能提升100倍以上,硬件成本和运维成本降低10倍。

  在DTCC 2019期间,ZILLIZ进一步拓展异构众核加速的理念,发布了“AI数据中台Mega”——它是ZILLIZ自主研发的 GPU加速的一站式AI数据科学解决方案。那么,AI数据中台的含义究竟是什么?Mega能够帮助数据科学家解决哪些难题?针对关于AI数据中台Mega的诸多问题,笔者有幸采访到了ZILLIZ创始人兼CEO星爵,请他为我们进行深入解读。

ZILLIZ创始人兼CEO星爵

  AI数据科学家之“痛”:数据准备环节过分低效

  过去几年,随着数据的爆发式增长,以及算法、计算力的迭代升级,AI技术得到了迅速发展,在包括金融、医疗、电信、制造、安防、互联网等在内的各行各业得到了广泛应用。

  我们知道,对于负责开发某个AI项目的数据科学家而言,在一个将AI模型部署、落地到应用场景中之前,往往要经历数据收集、数据清洗/分析/处理、模型的创建与训练等环节。

  “过去几年,大家的注意力可能都在模型的训练上面,所以这一环节得到了较大的发展,效率得到了很大提高。至于前期的大数据准备环节,技术发展却相对比较缓慢。再加上随着很多创新AI应用场景的涌现,涉及的数据类型越来越广泛,就对数据采集和处理等环节提出了更新更复杂的需求。”星爵说道。

  “基于这种技术发展的不均衡,整个AI项目的开发流程中产生了非常巨大的断层。尤其在大规模部署AI应用时,前期数据准备带来的低效影响日益突显。”

  通过一个针对AI数据科学家工作的调查(如上图),我们可以看到,现在很多数据科学家或AI工程师每天的80%以上的时间花费在数据下载、清洗与分析处理之上,真正用来做模型训练与调整的时间,只占比不到20%。星爵提出,除了技术发展不均衡、以及AI对数据处理提出更多新的需求这两个原因之外,多核与众核异构计算在AI中的引入,也是这一断层产生的主要原因之一。异构计算可以通过GPU、FPGA等加速器与CPU协同工作,为AI训练提供更高的计算力。但传统的数据库一般都运行在单一的CPU平台之上,不适应大规模异构环境,这就从底层的硬件与体系结构方面直接导致了异构计算的大数据处理与资源调度诸多关键问题的出现。

  基于对技术发展趋势的敏锐把握、对AI数据处理的切实需求理解,ZILLIZ自主研发并推出了业界首个GPU加速AI数据中台产品——提供GPU加速的一站式AI数据科学解决方案,帮助AI数据科学家提高AI开发效率。

  AI数据中台:GPU加速全流程,打破数据瓶颈

  “更直白来讲,AI数据中台是我们希望提供GPU加速的、一站式的、端到端的AI数据处理平台和流水线。”星爵说道,“我们希望能够用GPU这种硬件来加速整个数据处理的全流程,而不是像过去这几年一样,只用GPU加速模型训练这一个很小的板块。”

  具体而言,Mega整体解决方案包括四大核心产品:

  MegaETL——GPU加速ETL。依托GPU强大的并行运算能力,实现并行解析和编码,加速数据转换和清洗的过程,能将数据ETL处理的时间减少50~60倍。

  MegaWise——GPU加速数据分析引擎。基于GPU硬件加速的新一代OLAP处理引擎,突破了数据分析中计算能力和存储带宽两大瓶颈,和主流CPU数据处理引擎相比,查询性能提升100倍以上,硬件成本和运维成本降低10倍。

  MegaLearning——大数据资产AI赋能。帮助用户直接在已有的大数据系统(如Hive和Impala等)之上进行机器学习和深度学习训练,打通底层数据资产、大数据系统和AI训练系统间的隔阂。自动为AI科学家解决数据预处理、数据缓存和调度等任务,使其能用直接、便易的方式将AI训练和推理任务构建在现有的大数据系统之上,让AI科学家专注于AI建模、调优和调参,帮助节省8成以上的程序开发工作量。

  MegaSearch——GPU加速海量特征向量匹配和检索引擎。依托GPU加速,提供极速特征向量匹配以及多维度数据联合查询(特征、标签、图片、视频、文本和语音等联合查询)功能,并且支持自动分表分库和多副本,能完美对接TensorFlow、Pytorch和MXNet等AI模型,可实现百亿特征向量的秒级查询。

  写在最后

  毫无疑问,随着大数据、物联网、云计算、5G等技术的发展,数据井喷将会持续进行,甚至会愈演愈烈。AI作为一种致力于挖掘数据价值的技术,也势必将得到长足发展。但正如前文所述,AI项目开发流程中的断层是确实存在的,而且随着数据量的增大、数据类型的增多,数据清洗与处理这一环节的挑战也将日渐升高。在笔者看来,对于AI数据科学家与工程师而言,“AI数据中台”的价值是非常大的。让我们拭目以待ZILLIZ的更多发布。

0
相关文章