技术开发 频道

微博的大数据挖掘:知著、见微、晓意

  【IT168 现场报道】2013年11月22-23日,作为国内知名专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。


2013 Hadoop中国技术峰会

  Hadoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

  在下午的一场分论坛演讲中,来自北理工数据挖掘实验室主任张华平发表了主题为《微博的大数据挖掘:知著见微晓意》的演讲,其介绍了对大数据概念的理解,我们如何对大数据进行分析管理,以及张华平团队自主研发的数据搜索引擎JZSearch。


北理工数据挖掘实验室主任张华平

  对于大数据的特性,张华平认为主要有三点。一是规模,大数据最突出的特点就是“大”;二是多样性,现在我们最常见的就是结构化数据,也就是我们现在常见的数据库和数据仓库,例如包括甲骨文、MySQL等等,但在大数据里,我们基本上特指的是非架构化数据;第三点就是数据的变化越来越快,我们以前解除的数据是静态的,或者说等到积累到一定规模的时候,再进行批处理,但如今的情况变了,我们可能在处理的数据的时候,新的数据又来了。

  如今,大数据并不只是IT厂商、企业所关注的焦点,甚至已经上升到国家的层面。“在科技发展史上,包括互联网等,还没有哪个技术是被美国政府作为战略层面关注的,所以,大数据确实会对我们产生重大影响。”

  “如今,网络大数据的发展非常迅猛,大家可以看一看Facebook。Facebook上线不到8年,如今已经有超过9亿的用户,已经成为第三大‘人口国’。”此外,据张华平的统计,目前Twitter已经具有5亿用户,腾讯微博3.3亿用户,新浪微博3亿的用户。

  面对如此多的大数据,我们如今进行处理呢?这里张华平老师提出了三个具有文艺色彩的词汇:知著、见微、晓意。“并不是说我们对所有的数据都要进行分析,要知道,对于企业来说,所拿到的数据,绝大部分都是无用的,只有少部分才对企业有价值。”

  价值的密度越来越低,也是大数据的一个特点。“原来,我们拿来很多数据,都有用处,而现在,我们只是沙里淘金、海底捞针。这就是我提出的方法论的第一个词汇的解释——知著。”我们真正要做的是,在宏观上对数据进行分析理解,然后在微观上面进行处理,最后我们也要“晓意”,就是不要对词汇的意义弄混。

  对于处理大数据,张华平的团队也开发了一个搜索引擎——JZSearch,一个大数据精准搜索平台。其主要特点如下:

  搜索基本功能:

  多字段关联搜索、指定字段搜索、精确搜索和模糊搜索。

  搜索特色功能:

  内嵌正负面情感等极性分析、语义联想搜索、临近搜索、搜索结果去重;

  内嵌智能分词系统;

  数据库实时同步,数据库增删改10秒钟就可更新到搜索。

  搜索维护功能:

  单点故障容错、支持增量索引、自动备份与恢复机制、自动缓存机制、自动优化机制、搜索屏蔽与恢复。

5
相关文章