技术开发 频道

借助SAP HANA实现文本分析和文本挖掘

  【IT168数据库大会现场报道】2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕。在为期三天的会议中,大会将围绕大数据应用、数据架构、数据管理、传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享。本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据、数据结构、数据治理与分析、商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要。

借助SAP HANA实现文本分析和文本挖掘
点击进入第五届中国数据库技术大会(DTCC 2014)报道专题

  自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB、ChinaUnix两大技术社区,已经连续举办了四届中国数据库技术大会,每届大会与会规模超千人,大会云集了国内水平最高的数据架构师、数据库管理和运维工程师、数据库开发工程师、研发总监和IT经理等技术人群,是目前国内最受欢迎、人气最高的的数据库技术交流盛会。今年是中国数据库技术大会五周年,大会将继续秉承分享IT非常好的应用实践的宗旨,围绕传统数据库和大数据两条技术主线,在目前IT技术和管理快速的大背景下,更加深入地探讨数据库技术的现状和未来的发展方向,以及我们在这个转型过程中的实践经验和教训。

借助SAP HANA实现文本分析和文本挖掘
▲ SAP中国研究院项目总监董玢

  十几年来一直致力于数据集成领域的工作,自2010年带领并参与了10多个基于SAP HANA的产品及客户项目. 2005年加入SAP,在此之前任职于德国海德堡大学,负责数据仓库开发工作。本科毕业于北京邮电大学,后获得德国Ulm大学计算机系硕士学位。

  信息爆炸的时代,产生很多的数据,通过对数据的分析了解发生了什么事情,为什么会发生这种事情。  每天产生的数据80%都是非结构化的数据,比如邮件,短信,图片,语音等。过去由于软件和硬件的限制,对于这些数据的挖掘比较滞后。现在硬件和软件技术的更新,能够实时的对数据进行深度挖掘。

  本讲座将向您介绍SAP HANA如何帮助用户解决好文本分析,以及如何结合R语言和SAP HANA自带的预测分析函数库来实现文本分析和文本挖掘。

  结合R语言 SAP HANA做场景的分析和计算

借助SAP HANA实现文本分析和文本挖掘
▲HANA内存数据库平台

  可以和移动端结合在一起,做移动应用,也可以在云端使用HANA。能对企业核心的流程进行加速,对传统的ERP代码push到HANA中,进行加速。HANA可以对计划进行预测,支持和ESP一起处理流数据。

  在文本搜索方面的架构

借助SAP HANA实现文本分析和文本挖掘
▲HAHA文本搜索架构

  通过表的形式存储,通过建立全文的索引,对整个表进搜索。加上文本分析之后,进行语意的处理。建立索引之后,通过建模工具建立搜索模型。通过表的属性建立一个视图,然后确立其他的规则。

  在上层建立了UI Tookit,基于搜索的UI框架,通过简单的修改可以使用。也可以自己通过HMTL5做开发。与HANA交互通过扩展的应用服务。

  建立文本搜索的几个步骤

借助SAP HANA实现文本分析和文本挖掘

  基于SAP HANA建立文本搜索需要遵循如上几个步骤。

借助SAP HANA实现文本分析和文本挖掘
▲InA家族说明

借助SAP HANA实现文本分析和文本挖掘
▲HANA 预测分析库

  预测分析库用于文本挖掘使用,其中包括了所有的通用的算法,做分类,聚类和关联性的算法。这些算法在HANA中通过C++实现。

借助SAP HANA实现文本分析和文本挖掘

SAP HANA+R

  SAP和R是一个很好的结合。R是一个很好的工具,包含了很多的算法,在很多场景进行补充和HAHA结合使用,在HANA中处理的数据在R中运行,然后再返回HAHA,通过R可以做算法的加速。

0
相关文章