【IT168专稿】人类已经进入图像音频的大数据时代,基于深度学习,大规模计算等技术正在快速拓展人类视频和图像的处理能力,各互联网公司也纷纷成立深度学习和图像处理的实验室,Google深度学习的第一个例子是通过大规模计算来自动识别猫,将复杂算法和大数据技术的整合正在成为一种全新的计算模式,同样这些大数据技术也被应用于人脸识别,图像检索,语音识别等领域。
近日,北京红象云腾系统技术有限公司(以下简称红象云腾)在2015 中国hadoop 技术峰会上发布了OpenVMC视频计算框架。红象云腾创始人童小军表示,本次发布的OpenVMC(Open Video Manager Center)以开源Hadoop技术为核心构建,计划联合多家视频开源厂商合作集成,视频海量接入VDCEYE,开源存储和计算RedHadoop,视频数据库 SeasBase,图像算法OpenCV团队等,视频直播 EasyDarwin,统计分析管理等。系统目标实现可以在分钟级别检索海量视频内容的提取和检索。OpenVMC向OpenStack学习,希望在视频领域构建一个开源开放的实时视频监控平台,红象云腾深感开源协作办大事的研发优势。
在峰会上,IT168专访了红象云腾创始人童小军。童小军为我们分享了他从培训师到创业者的蜕变,并为我们解密了OpenVMC视频框架与一体化大数据平台(RedHadoop Enterprise CRH3)原理,诞生过程及应用场景。
童小军,红象云腾公司创始人,EasyHadoop开源社区创始人之一、Hadoop云计算讲师,专注于Hadoop大数据技术普及和推广工作,致力于让Hadoop大数据应用更简单。曾任暴风影音数据研发经理、搜索引擎研发经理。
红象云腾成立于2013年5月,2014年5月份获得百万级天使投资。红象云腾创始人童小军表示,红象云腾专注于企业大数据引擎研发,致力于构建简单、稳定、高速的Hadoop基础平台和外围垂直应用级解决方案,致力于将大数据(Hadoop/Spark等)技术带给更多的中国企业。我们希望让Hadoop更简单,这是我们红象云腾的基本思想。
以下来自IT168对红象云腾公司创始人童小军的采访实录。
老鱼:根据我了解,你在创业之前身份是培训讲师,从一名传道者到自己开公司做产品是个很大的转变,为什么会有这个转换,创业过程中有什么感受?
童小军:嗯,创业无捷径!出来自己做一个公司,需要面临很多的挑战!首先是你的客户在哪里?其次你要做什么产品?而之前培训的经历帮助我实现了客户资源的快速积累,个人影响力及品牌积累,另外非常重要的一点是,培训是汲取用户需求的一个很好的切入点。
老鱼:作为一个创业型的公司,红象云腾公司的产品及服务相对于竞争对手而言,优势在那里?
童小军:红象云腾是一家中国的Hadoop企业级平台厂商,与竞争对手相比我们的优势主要有以下3点:
1、 我们源自互联网,拥有大规模的hadoop实施经验,我们可以帮助企业去构建一个更大规模从50台到100台以上的hadoop机群,这是我们的技术积累。
2、我们提供大数据一体化解决方案,一体化对客户来说意味着可以减少大量不必要的沟通。我们提出客户一个月上初级平台,三个月能上一个基本能用的平台,Hadoop实施项目不用跨年。
3、我们专注于视频方向的一整套大数据处理框架(OpenVMC视频解决大数据处理框架),是全球首个支持视频计算的Hadoop厂商。我们可以有效解决大量视频的管理、存储、检索、统计分析的难题。
老鱼:你刚才提到了红象云腾公司的核心产品RedHadoop Enterprise CRH3,定位是一体化大数据平台,而在你们的宣传资料上面我看到了“构建企业一站式大数据高速列车”这样的宣传语,这个高速列车和一站式大数据怎么理解?
童小军:首先,我来解释一下什么叫“高速列车”。起因是我在做大客户培训时,发现很难给客户解释清楚Hadoop具体有什么优势。
Hadoop的理念和高铁的基本原理神似。传统铁路是集中动力火车头,高铁是动力分布式列车(Multiple Units,MU),每节车厢都有动力,是城市间纽带连接的重要交通工具。相比原来计算机的集中式架构(IOE),现在分布式处理架构Hadoop和动车原理有神似之处。Hadoop也是每个节点有存储又有计算,提供充沛动力和功能模块带动客户的大数据应用环境。而不是之前一个小型机拖一个存储机柜。于是我们就说要做中国数据行业的高速列车。提出了我们的品牌,就是RedHadoop CRH,其中CRH就高铁的一个谐音简称China Red Hadoop。
我们坚信Hadoop会像高铁改变我们生活一样改变数据的存储和处理方式。
构建一站式平台的想法也是源自客户需求,客户往往需要的是你给他一个完整的解决方案,因此我们针对客户的需求提供从平台到报表到ETL一整套平台。当然我们很多组件,是跟其他或作伙伴合作的。我们清楚的知道,我们不可能什么都做,虽然我们核心是基于Hadoop,但是给客户提供的服务可不仅仅只是Hadoop。
RedHadoop Enterprise CRH3战略定位是一体化大数据平台,以此为基础软件平台层,我们持续开发应用层软件。软件中整合了三个计算框架:MapReduce批处理框架、Spark 内存计算框架、Storm 流计算框架。囊获了主流计算模型,集成了Mahout、R引擎等数据挖掘组件,集成ETL,调度系统等管理系统。
RedHadoop CRH Studio 是我们开发的Hadoop CRH发行版本的windows版本,实现了单机版hadoop的使用,软件升级,日志记录,Demo演示,Eclipse开发,安全模式退出等。此外,软件还包含工具箱,能提供方便、快捷的查询功能。支持内存计算Spark!特点是无需专用服务器,一台笔记本、一键智能安装、无需linux平台经验,和Windows一般易用。
老鱼:你在今天的大会上演讲主题是视频计算,并在大会上发布了OpenVMC视频计算框架,红象云腾号称是全球首家支持视频计算的hadoop厂商,能否介绍一下红象云腾公司视频计算解决方案都包含着哪些产品?原理是什么?它具体的应用场景都是什么?
童小军:正如之前所说,我创业前是培训师,而视频计算的需求正是源于培训时学生的反馈,不少学生提到Hadoop能不能处理视频的问题。我的老东家是暴风影音,曾经有处理视频方面的工作经历,于是我就想可以试试。
那我们怎么样用Hadoop来处理视频的呢?在2013年的6、7月份我们开始准备这个项目,这个项目我们叫视频数据库(SeasBase海量数据库)。原理是通过把数据加载到hadoop,再通过hadoop上传到这个数据库引擎解析视频,并且把视频从原来的非结构化数据转变成结构化数据,从而实现视频的检索。
非结构化表转化成结构化数据表
OpenVMC 系统架构包括三大核心模块,海量视频接入NVR VDCEYE,视频离线分析 SeasBase,视频实时分析 SeasCam多个模块构成 同时包含ETL分析,图表展现等处理模块。 NVR作为数据源和视频汇集工具提供视频流到三个部分,1.保存本地存储,2.接入到HDFS,3.数据流到队列,SeasBase集成多种视频识别算 法,通过使用定时器触发通过MapReduce分布式创建视频索引,SeasCam 实时视频分析框架,从队列中读取海量视频数据并分布式分析,最后通过ETL分析并通过图表展现报警。
关于大家关心的性能问题,OpenVMC 充分MapReduce 分布式处理,提供高速IO和分析能力,通过RedHadoop Enterprise CRH3 的MapReduce 模块,实现视频大数据的本地化计算,提高IO吞吐量,充分利用每台机器的CPU资源,从而整体提高运行效率。系统利用功能较多编解码模块(支持各种视频格式) 读取视频信息,并使用图像运动物体识别算法提取运动物体,调用各种算法做识别处理,最后生成索引提供检索查询,提供单机服务器 30s检索10小时视频的能力。
OpenVMC集成和支持多种图片识别算法,系统包括: 行人识别算法:运动物体识别算法 车辆识别算法:车辆颜色,车牌号,车型等多种识别算法,未来会集成人脸识别等。
OpenVMC系统集成批处理(MapReduce),流处理(Storm),内存计算(Spark)三大引擎,通过批处理,流处理,内存计算多种技术整合,实现视频实时分析,批量计算,和实施存储。
今年我们接到不少这方面的单子,那基于什么样的应用场景呢?
我举个例子,我们海南的一个客户在城市建设过程中遇到一些特殊车辆问题,比如渣土车,渣土车把渣土掉下来会影响市容市貌,他们需要及早发现,并纠正处理。以往只能通过看视频找,花费大量人力,效率低下,现在有了我们的方案效率提升很多。
又如公安执法部门,对时效性、预警等有强烈的需求,这要求监控多种维度的数据的异常量、实时分析、实时报警。
如:对于公共火车站等敏感区域,某个小空间的人数突然非正常增多提供预警功能,让公安人员能看到实时信息,做出判断,保障公共安全。对特定维度信息的实时监控,例如小孩丢失的图像处理,嫌疑人的衣服、颜色特征、人数等维度信息提取后的大数据追踪系统,向公安人员提供具体的追踪嫌疑人和路线统计。
具体地点的异常监控报警。例如:设备、禁止穿越的位置,出现人图像后的实时报警。
这些都涉及海量视频数据的多维度提取、转码、转换等,大数据处理分析平台、不同的数据库的整合等,是典型的应用场景。