技术开发 频道

专访日志易CEO:解读时间序列机器数据

  【IT168 评论】我们正处于信息技术飞速发展的时代,在工作生活中,每一秒钟都有海量数据产生。大数据发展向前迈进了一个阶段,仅仅对于数据的存取已经无法满足企业发展需要,数据挖掘分析变成了企业在竞争中必不可少的有力武器。目前,大数据虽然现在已经成为大家的焦点,各种数据分析的厂商也有很多。但是很多企业对数据挖掘所能带来的价值并不了解,选择方案时对自身需求与能力考虑不足,无法充分的利用手中已有资源获得价值。

  即将于10月22日在北京新云南皇冠假日酒店召开的2015中国系统架构师大会中,特设了大数据变“现”专场,邀请众多有经验的专业人士分享经验技术和为与会人员解答疑惑。在主题为“海量机器大数据实时搜索分析”的演讲中,日志易CEO陈军将分享有关海量机器数据处理的难点解读及相关技术。此次,IT168提前对演讲嘉宾进行了采访,在有关海量数据分析处理部分,陈军为大家分享了他的看法。

    陈军

时间序列机器数据 企业日志的掘金之道
▲日志易创始人兼CEO 陈军

  陈军先生拥有17年IT及互联网研发管理经验,曾就职于Cisco、Google、腾讯和高德软件,历任高级软件工程师、专家工程师、技术总监、技术副总裁等岗位,负责过Cisco路由器研发、Google数据中心系统及搜索系统研发、腾讯数据中心系统和集群任务调度系统研发、高德软件云平台系统研发及管理,对数据中心自动化运维和监控、云计算、搜索、大数据和日志分析具有丰富的经验。他发明了4项计算机网络及分布式系统的美国专利,拥有美国南加州大学计算机硕士学位。

  陈军解读大数据市场现状

  陈军认为,目前的大数据市场还处于比较初级的阶段,很多非大数据的传统IT公司也在打着大数据的旗号在市场上活跃,一些对行业了解较浅的客户和投资者容易被误导。一些企业对大数据的价值和实施也是一知半解,不够重视对大数据处理的资源投入。

  在这种情况下,陈军建议,企业应多了解业界新产品和技术趋势,多参加各种业界大会,了解大数据的行业信息,管理层需要合理投入资源,把业务需求与大数据技术结合起来。企业对于大数据的利用应结合自身业务加以详细分析,才能充分挖掘数据价值。

  日志的作用与价值

  时间序列机器数据指的是由机器(服务器、网络设备、传感器等)产生的、带时间戳的数据,日志就是其中重要的一种。服务器、网络设备、传感器、操作系统、应用程序每时每刻都在产生这种时间序列机器数据。此类数据的应用场景包括:运维监控、安全审计、用户数据挖掘等。金融机构、互联网公司、大企业都十分需要日志的实时搜索分析,来提升其数据利用率,在日渐激烈的市场竞争中稳固地位。

  1. 运维监控:运维的视角和开发的视角有很大区别,但是,运维的数据能反哺开发。同时,开发的时候同样需要考虑可运维性,而其中非常重要的一点就是日志。运维根据需求记录日志,常见场景包括访问数据、访问接口、软件系统内部核心链路、软件系统对其依赖系统的访问情况以及系统异常等。日志分析能够帮助运维人员分析系统容量方便扩容,在系统某些部分工作不正常的时候及早发现,在发生严重故障后可以及时定位问题的原因。

  2. 安全审计:随着云计算等新技术的应用日益广泛,当今企业面临的安全威胁越来越多。网络中的主机、服务器、网络设备、安全设备、数据库以及各种应用服务系统在运行过程中会产生大量的日志和事件。日志分析能够协助IT人员实现网络故障排查、网络安全审计、安全信息与事件管理、日志统一归档等。

  3. 用户数据挖掘:曾经有公司做过一个实验,他们寻找一批志愿者询问其更喜欢黑色的笔记本电脑还是白色的笔记本电脑,大多数志愿者都表示喜欢白色。而后,此公司安排志愿者临走时可以带走一部白色或黑色的笔记本电脑,最终结果显示,大多数志愿者带走的都是黑色电脑。所以用户的历史行为,真实发生过的事件才更能代表用户的真实意愿。

  日志分析的主要特点是数据量大且快,大企业每天产生的日志都是TB级,每秒几万条。如果没有有效的工具,在海量的日志里找信息如同大海捞针。不同系统产生的日志还要做关联分析,例如:一笔网上交易会经过多个系统,这些系统都会产生日志,需要把这些日志关联起来,形成一个交易事务来进行分析。

  日志分析特点及技术难点

  日志是非结构化数据,不同系统的日志格式不一样。数据库是用来处理结构化数据的,有固定的schema(表格式),如果用数据库来处理日志,当有新的日志格式时,数据库的schema也要做出改变来适应新的日志格式,而这本身的成本是很大的。另外,数据库无法处理每天TB级的日志量。Hadoop作为批处理的开发架构,实时性差,查询的延时在几十分钟甚至几小时,并且Hadoop不支持全文检索。用户若选用Hadoop作为分析技术,需要培养一个开发团队,等待开发周期结束,才能看到最终结果。无论在资金和时间方面都需要承受不小的压力,对于一般企业来说,性价比很低。

  日志分析的技术难点在于实时数据处理技术,其分析所用技术需要能够每秒钟处理几万条甚至几十万条日志。日志从产生到搜索、分析出结果只有几秒的延时。陈军在分享日志易对于数据处理的经验时候提到,日志易采用Spark Streaming流式处理架构来应对复杂大量的数据分析。并且,日志易还获得了提供Spark服务的硅谷公司Databricks的Certified on Spark的Certified Applicaitons认证,他们也是唯一获得这个认证的中国公司。

  据陈军介绍,日志易的研发团队大部分来自BAT等大型互联网公司,在过去做过大量的大型大数据项目,在大数据研发方面积累了很多实战经验。关于近年IT架构的改变,陈军表示,日志易的团队会密切关注业界最新技术,引领中国大数据潮流。

  2015 SACC系统架构师大会上,陈军将从业务场景、技术演变、技术选型、业界潮流、产品分析等角度介绍有关海量机器大数据实时搜索分析的技术与实现。对于关注日志处理分析的IT运维工程师、安全工程师以及运营分析师等,此次演讲都会有所受益。更多有关日志分析的相关技术解读,陈军将在架构师大会上为大家分享。


1
相关文章