【IT168 专稿】“大数据”自诞生之日起,业界对它的概念、技术和应用就存在一定争议。究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解。在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的“大数据”是什么样的?
何春涛,Inetsoft研发总监,从事商业智能产品的研发和应用工作十几年,在高性能及大数据商业智能的相关领域工作了五年。其负责的研发团队多次获得国际奖项,包括JavaOne、JDJ Readers' Choice Awards等。他也参与了一些机构的商业智能系统的建设工作,包括麦考瑞银行、世界卫生组织、AT&T等,在商业智能、高性能商业智能、大数据商业智能等领域具备丰富的实战经验。
大数据将演变成重要的企业资产
在何春涛看来,大数据的概念可以从以下两个方面解释:
1. 从技术的角度看,大数据是指数据量大且复杂到无法通过传统数据库技术进行治理和价值发掘。在这种需求下,各种NoSQL、NewSQL、开源技术或者商业平台不断出现并进化。
2. 从商业的角度来看,大数据将衍生出很多新的商业模式。其一、只要技术足够,企业可以整合内部和外部大数据(例如社交数据、App数据),更好地优化自身业务,实现对传统商业模式的超越。其二、只要技术足够,企业将收集并治理那些不曾有能力收集并治理的大数据,再发掘出巨大的商业价值。大数据,将演变成重要的企业资产。
最看好实时大数据技术
何春涛认为当前热门的大数据技术主要包括以下内容:
1. 用于大数据存储的Hadoop HDFS,以及衍生的数据库HBase;
2. 批处理大数据项目有Hadoop MR,它最新版本是YARN。衍生项目有数据仓库Hive和机器学习Mahout;
3. 实时处理大数据的项目有:Spark以及衍生的数据仓库Shark,Cloudera Impala;
4. 用于流计算的项目有Apache Storm。
5. 商业大数据产品有一体机例如PureData、Exadata、Hana;MPP DW例如Vertica、Aster Data、GP;MPP DM例如 Yonghong DM。
他表示,未来比较看好实时大数据技术。因为,实时大数据技术能够让企业对大数据进行探索式和交互式分析,相比于之前没有灵活性和动态性的批处理大数据技术而言,它将大大提升发掘大数据价值的效率和可能性。
商业大数据应与开源产品平分秋色
谈到对大数据未来的担忧,何春涛表示,国内大数据发展势头不错,但以下三个方面仍需改进:
1. 商业大数据产品或者技术至少应该占1/2,而不应该逢大数据就聊开源。我们看到在美国很多大数据的商业公司越来越强大,例如Cloudera、Hortonworks、MapR、1010Data。但国内企业要么大数据搞不起来,要么技术比较强的就自己捣腾开源,这不利于资源整合,优势互补。
2. 两个极端。国内大数据项目是哑铃型,要么上超贵的一体机,要么上开源的大数据项目。实际上,在上大数据项目的时候,可以选取性价比比较好的商业产品或者商业服务,而不要走两个极端。
3. 目前的主流大数据产品和技术都在美国。作为21世纪最重要的国家之一,中国应该有自己的主流大数据产品和技术,而不仅仅是搬砖头或者盲目跟从。希望能与各位同仁一起努力,在实时大数据领域做点工作。