【IT168 技术文档】
企业信息搜索市场需求
随着企业信息系统地建立和发展,产生了大量的业务信息。其中不仅有数据库中业务交易信息、客户信息等结构化信息,而且还有大量产品资料、服务记录、往来邮件、事件处理说明、规章制度手册、工作记录报告等非结构化信息。这些信息有的可能存储在数据库中,大量的信息则保存在文件服务器、邮件系统、网站的网页、内容管理服务器等系统中。如何从企业纷繁复杂的信息资源中,找到用户所需要的内容是信息管理的一个巨大挑战。
以互联网为例,对于浩如烟海的互联网信息,我们并不知道我们想要的信息所在的位置,今天我们最常用也是最有效的手段是使用 Goggle、Yahoo 一类的搜索引擎搜索相关信息。在企业内部也面临同样的情况,大量企业的信息资源分散在各处,以不同的格式存在、按不同的分类组织,受不同的安全机制控制。而最终使用其内容的用户不可能去掌握这些复杂性,希望能够通过输入简单的关键词的组合,由系统自动从各类信息资源中搜索到相应的内容。从而提供对信息访问的最简单、最直接的途径。应而企业信息搜索技术应运而生。
但是相对于互联网的简单信息搜索,在企业内部实现信息搜索有更大的复杂性。主要体现在信息分布的多样性、信息访问控制的安全性以及与业务应用系统的集成性等多个方面。与互联网不同,在企业内部信息不仅分布在网站上,大量有价值的信息是存储在文件系统、内容资料库、数据库及邮件系统中。格式可能是文本、XML、Word 文档、PDF 及 PPT 文件等。这些信息可能有不同的安全访问级别、对不同的用户需控制其访问的信息内容,往往都要求做到文档级的安全性管理。另外企业内部信息搜索应用的目的性更强,往往还要求搜索的结果能够与企业现有的业务处理进行紧密地关联,使搜索能够为更灵活的业务处理流程服务,如减少寻找客户资料的时间、提供客户网上自助服务的快捷查询手段等。从而在传统的基于流程的信息服务之外,信息搜索正逐渐成为一种更为普及更为通用的信息访问接入手段。
面对这种现状,IBM 发布了 OmniFind,它作为 IBM 总体信息整合平台的一部分实现了企业信息的准确检索;有助于企业更好地洞察它们的运营情况,更好地利用企业现有的信息资源,从而为企业的更快发展提供信息服务。
IBM OmniFind 是一个优秀的企业级信息搜索平台。它符合企业级搜索的特点,满足企业级信息搜索的各种要求,提供高质量、高性能、高伸缩性和安全性的企业搜索能力,可使企业员工、合作伙伴和客户便捷高效地搜索到企业中各类有价值的信息。
图 1. IBM OmniFind 为企业信息搜索提供了完善的解决方案
IBM OmniFind 为企业信息搜索提供了完善的解决方案,可以满足企业信息搜索的多样化需求。IBM OmniFind 主要包含以下产品模块:
IBM OmniFind Yahoo! Edition
IBM OmniFind Yahoo! Edition 是一个免费的入门级企业搜索软件,实现了与 Yahoo 搜索的无缝集成;企业员工可以通过单一搜索界面从企业和互联网信息中快速查找自己想要的信息;支持的企业数据源包括企业内部网站以及文件系统(最多支持 500,000 个文件)。
IBM OmniFind Enterprise Edition:
IBM 企业信息搜索平台的核心产品;可以支持企业中多种数据源的检索查询,这些数据源包括文件系统、数据库、邮件系统、企业内容管理系统等;并且通过 UIMA 可以集成第三方的分析工具;同时可以满足企业信息搜索的高安全性、高可用性、高性能以及可扩展性等要求;提供多种部署方式可以灵活的满足多样化的企业搜索需求。
IBM OmniFind Discovery Edition
IBM OmniFind Discovery Edition 旨在通过提供一些有针对性的解决方案来解决实际业务问题,这些解决方案包括产品目录搜索以及 Web 自助服务等。OmniFind Discovery Edition 能够理解用户搜索请求的上下文,获得搜索请求的隐含含义,从而更好的满足用户的搜索请求;通过改善最终用户的搜索体验,企业能够迅速提高其商务站点上的销量量、改进客服中心人员的响应能力和改善客户对 Web 自助服务门户的满意度。
IBM OmniFind Analytics Edition
IBM 推出的新一代文本分析挖掘平台;主要用于帮助企业快速收集各种结构化信息和非结构化信息,如邮件信息,聊天记录,音视频信息等等;并且通过对这些信息的分析挖掘,提供语义检索、关键字检索、趋势分析、下钻浏览和自动告警等功能,从而为企业的快速决策提供支持。作为 IBM 新一代商业智能解决方案-动态数据仓库的核心组件,IBM OmniFind 文本分析平台可以快速的从业务信息中获取有用的信息 , 提供高质量分析报告;从而提高客户的服务质量,提升企业的竞争力。
OmniFind 不仅能够广泛地支持企业中的各种数据源,而且能够很好地了解企业中各种数据源之间的差异性,能够自动发现各类数据源及其元数据,配置管理非常方便;这将大大降低系统开发和运维的复杂度,也为未来系统数据源的扩展带来便利。
OmniFind 提供基于 Web 的,界面友好的统一管理控制台。通过该控制台进行简易的配置即可完成对各种企业数据源的搜寻。
OmniFind 在提供统一的配置管理方式的同时,又能够很好地了解企业中各种数据源之间的差异性,能够非常好地自动发现 (Auto Discovery) 各类数据源及其元数据 (Metadata)。
管理员还可以通过图形管理界面配置爬虫器要搜寻哪些类型数据源、不要搜寻哪些数据、何时搜寻、重新搜寻或增量搜寻的频率等等。
OmniFind 友好的统一管理界面和自动发现能力使管理人员可以在很短的时间内用图形管理界面将数据源定义好,这不像其它厂商需要对配置文件进行人工编辑,从而大大提高了生产力,缩短项目周期,同时也方便了搜索系统的管理和数据源扩展。
OmniFind 对数据的采集是通过爬虫器 (Crawler) 完成的。通过在 OmniFind 的管理控制台上进行简易的配置即可完成对各种企业数据源的搜寻。IBM OmniFind 管理配置简单,对关系型数据库数据源,OmniFind 管理控制台可以自动发现数据库中的表及表的字段,由用户自行选择。界面如下:
OmniFind 的元数据扩展能力是通过元数据插件 (Metadata Plug-in) 来实现的。OmniFind 通过 Metadata Plug-in 可以很好地将两个分离的、但又存在业务逻辑关联的数据源联系在一起进行搜寻。扩展能力强,而且非常灵活。
OmniFind 非常便于安装和管理,所以使用很短的时间即可建立和运行企业搜索应用程序。管理员仅需指定搜索从何处开始到何处结束和刷新索引的频度。OmniFind 设计用于减少 IT 人员的管理需求,其分析特性是透明的,可以最大限度地减少完成高质量搜索结果所需的管理任务。使用 OmniFind,可以方便地定义合适的安全性、监控系统活动并解决发生的各种问题。
OmniFind 通过一个基于 Web 的管理控制台 (ESAdmin),实现统一的管理和监控。有自动发现数据源和元数据的能力,使得配置过程非常智能化,不需要手工编辑繁琐的配置文件。
另外,还可以非常方便地配置定时进行自动爬数据源、分析和建索引等操作。统一友好的用户界面和定时功能将大大节约系统的运维成本。
此外,OmniFind 管理控制台还是一个基于角色的管理平台,可以创建不同角色的管理员,实现管理上的安全控制。
OmniFind 搜索准确灵活。除了基本搜索外,还可以进行灵活的高级搜索,包括根据数据源、文档类型、文档大小、文档语言等对结果进行筛选。
此外,管理员还可以为经常被用户搜索的关键词配置快速联接。有效提高了用户的搜索企业信息效率。
OmniFind 支持对搜索要求的多国语言自动分词能力。OmniFind 不仅提供自动分词能力,而且基于分词功能提供选项支持对用户输入的查询请求进行拼写较正,基于校验后的结果进行搜索。
OmniFind 支持动态文档摘要的生成能力。OmniFind 在返回结果时,可以自动根据搜索串对文档进行动态的摘要处理。
OmniFind 提供了完善的 Java API 接口,用户可以在此基础上定义自己的搜索应用,OmniFind 提供专门的搜索语言,支持全文检索基础上对属性信息的过滤和与或等多种组合匹配方式,通过客户化编程,可实现独立存储的元数据属性信息和全文信息结合的搜索。应用可灵活定义搜索需求。搜索结果提供动态摘要及匹配度信息,对命中的词汇进行高亮显示。
OmniFind 提供了对结果的排序能力。其排序方式支持两种。一种为 Text based scoring,动态计算匹配度评分。另外还支持 Static Ranking,能够根据文档本身的因素(如:文档被引用的计数值或文档的时间戳)对范围结果的排序产生影响。
OmniFind 还提供了二次检索能力。OmniFind 所返回的结果中包含搜索的查询串信息。二次查询实现时,是将在第一次搜索的查询串基础上添加新的查询要求。OmniFind 二次查询时,将首先从 cache 中提取信息,这种方式无疑将大幅缩短查询时间,提高查询效率。
全方位安全机制,可以支持 IBM Content Manager 等数据源内部安全机制
数据资源的安全性是构建一个企业级搜索引擎需要考虑的重要因素。OmniFind 提供了多种搜索安全控制机制,包括有管理级别安全、搜索应用级别安全、集合级别安全和文档级别安全。可以根据客户的具体安全性需求进行灵活多样的安全控制。
OmniFind 还支持对多种数据源(如 IBM CM)的内部安全性支持。这是其他任何厂商所做不到的。
此外,OmniFind 还对 LDAP 有很好的支持。
OmniFind 提供了多种搜索安全控制机制,包括有管理级别安全、搜索应用级别安全、集合级别安全和文档级别安全。
用户也可以通过安全插件 (security plug-in) 可以为每个文档定义搜索权限,确保用户无法检索到其没有得到查看授权的信息。
集合级 (collection level security) 的访问控制主要与企业应用配合,可以控制某个部门的搜索应用能够搜索的集合。文档级 (document level security) 访问控制,可以将用户与可访问的文档直接关联。其授权是通过设置安全性令牌(Token)实现。
OmniFind 提供的机制允许在对文档进行抓取 (Crawl) 的同时,为每个文档设置安全令牌信息。该令牌信息可以是操作系统 ID, 用户 ID, 组 ID 等,设置安全性令牌可以由管理员指定、预定义,通过 API 由用户自定义等多种实现方式。
简而言之,OmniFind 安全模型提供了一种机制,可以在搜索时间将安全标记与每个文档相关联,而在查询时间将安全标记与用户查询相关联。在查询期间,索引可以非常高效地进行文档过滤,所以用户只能查看其具有查看授权的那些文档。另外,OmniFind 的安全控制机制还可以与企业现有的内部安全机制集成使用。
完善的客户化开发接口,能够与企业现有系统 (WebSphere Portal) 无逢集成
OmniFind 提供了给用户完善的二次开发接口以便于与现有应用系统集成。尤其在与 WebSphere Portal 的集成方面是其他任何厂商所无法比拟的。
OmniFind 提供基于 Java 的 Search & Index API,可以很快的将 OmniFind 集成到现有的企业门户或应用系统中。同时 OmniFind 自带了多个 Java 应用范例供开发人员参考。OmniFind 还提供一个基于 J2EE 的搜索应用程序示例 ( 即 ESSearchApplication) 和一个 Portlet(如图 8 所示),用户可以将该应用程序示例用于创建满足组织独特需求的搜索应用程序的模板。
图 8. OmniFind 和 WebSphere Portal 的集成
IBM OmniFind 提供了优越的性能,可扩展性以及高质量的搜索结果集,可以快速访问企业中广泛的信息源。IBM OmniFind 提供三种部署方式,可以满足不同企业的应用需求:
单节点配置方案
如图 9 所示,在一台服务器(节点)上部署 OmniFind 的所有部件。该部署方案可支持上百万文档量。
双节点配置方案
该部署方案具有企业级扩展能力,可支持百万级以上文档量,同时具有支持负载均衡和能够避免单点故障的特点,可支持 7 X 24 小时高可用性。
四节点配置方案
该部署方案具有企业级扩展能力,可支持千万级以上文档量,同时具有支持负载均衡和能够避免单点故障的特点,可支持 7 X 24 小时高可用性。
OmniFind 还在全球最具挑战的 Intranet 上证明了它的强大功能和可扩展性——IBM 的 Intranet 有超过 300,000 人员使用搜索服务。
结束语
作为企业信息搜索市场的领导者,IBM OmniFind 能够满足不断变化的企业搜索市场的要求;本文主要从市场的角度介绍了为什么需要企业信息搜索平台,然后介绍了 IBM OmniFind 的产品组件并详细介绍了其特点。随着企业信息搜索需求的进一步发展,IBM OmniFind 也将在更多的领域为客户提供更好的搜索服务。
关于作者
王福荃是 IBM 中国软件集团的高级信息工程师。