【IT168 上海报道】2010年7月27日,“智能搜索通向未来——自然语言技术与未来生活”论坛在上海世博园内城市未来主题馆召开。此次论坛由上海语天信息技术有限公司主办,上海计算机软件技术开发中心和上海张江(集团)有限公司指导,对自然语言技术发展与应用、自然语言技术与企业舆情检测预警、自然语言技术与城市应急以及自然语言技术于高校科研这四个方面做了探讨。同时,上海语天的智能语义搜索平台也在论坛上宣布正式上线。

,“智能搜索通向未来——自然语言技术与未来生活”论坛现场
自从互联网普及以后,过多、庞杂和真伪不定的信息一直困扰使用者。虽然通过搜索引擎、目录、人工编辑的社区等工具,人们可以获得一定的辅助,但是这些工具的准确性和方便性仍很不足够,急迫需要向智能化、精确化、专业化、个性化等等以用户为中心的智能信息服务。而自然语言技术就是目前被认为可以为信息服务带来革命性的理念和崭新的应用,有效提高服务的质量和满意度,为相关行业和信息服务业创造更多的发展空间的一种技术。

清华大学计算机系主任、中国中文信息协会副理事长孙茂松
以清华大学智能技术与系统国家重点实验室属下的语音技术为代表学术机构是目前中国的语音和语言处理技术研究的主要力量。此次论坛上,清华大学计算机系主任、中国中文信息协会副理事长孙茂松就自然语言技术影响的“Web智能的基本特征”做了主题演讲。
Web智能是近年出现的一个崭新的研究方向,它是人工智能和高级信息技术在新的Web和互联网环境下相互融合的产物。其中,自然语言技术对语义Web、Web挖掘等具有重要的意义。因为Web上的数据量正以几何级数的方式激增,Web数据的模糊性、粗糙性、随机性、可能性等不确定性特征的日益突出。在处理不确定的Web数据和信息时,当前的Web技术难以进行有效的知识发现和决策制定,而自然语言技术对此却有先天优势。
相对于基于关键词的技术,自然语言技术的优势是:(1)直接:在信息查询时,用户可以不必进行多级菜单的选取而直奔主题。(2)灵活:用户查询不必严格按照某些关键词进行询问,只要用户的叙述在“语义”上与要查询的一致。
由此,采用自然语言技术的智能信息服务也为电子服务开创许多新的领域。如智能搜索及其衍生的各种智能信息服务。
智能搜索引擎就是普通的搜索引擎引入中文自然语言理解和知识管理技术,构造成新的智能搜索引擎,能提供全新的信息查询服务,创造更综合的增值服务。目前的搜索引擎由于只使用关键词技术,没有引入自然语言理解,每次搜索时只是按照关键词进行匹配,返回的大量信息和链接,其中很大部分是垃圾信息或者不是用户需要的信息。基于内容的智能搜索引擎是依靠语义网络、汉语分词、句法分析、处理同义词等语言理解技术最大程度地了解用户的信息需求,获得更高的易用性、更准确的范围定位、更智能的搜索结果。
运用了先进的自然语言技术,智能搜索引擎可以识别并回答用户的问题,使用户摆脱了传统搜索引擎基于关键字的束缚,指引用户更有效、更快捷地寻找到所需的资料,同时为用户提供相关的、有参考价值的其他内容。由于这些特点,使得智能搜索技术能够在互联网信息检索的各个方面得到广泛的应用。

上海计算机软件技术开发中心主任宗宇伟
此次论坛的主办方上海语天致力于自然语言搜索引擎技术的研发和市场应用推广,在论坛上,上海语天信息技术有限公司技术总监以《互联网环境下自然语言处理的应用》为主题做了主题演讲,介绍了语天在此项技术方面的研究。据介绍,语天公司目前20多名研发人员中,六成是计算机研发人员,四成是语言技术人员,共同研发相关技术。
自然语言搜索带来的商业价值同样在此次论坛上得到了展现。解放军南京政治学院上海分院信息管理系教授王兰成主讲的《网络舆情的监测、分析、服务与自然语言技术的发展》、浙江省嘉兴市应急办专职副主任邓辉主讲的《网络环境下的应急管理》、上海外国语大学国际工商管理学院院长范徵主讲的《自然语言技术与学界研究》,均为自然语言技术应用到智能搜索后典型的智能信息服务。
作为自然语言技术商务化的代表企业,上海语天致力于自然语言搜索引擎技术的研发和市场应用推广。本次论坛展示上海语天阶段性的研发成果,其中重点即为Laiseek中文语义引擎。为此,此次论坛上还举办了上线仪式。

Laiseek中文语义引擎上线仪式
Laiseek中文语义引擎是语天独立自主研发的基于自然语言基础,能在语义识别、自动分类、自动问答、智能计算以及褒贬分析等方面为用户提供有力帮助的搜索工具。可以用在企业舆情检测预警、城市应急及高校科研等多个方面。
据介绍,上海语天公司目前已经有四大类实用高效、性能卓越的产品或服务,包括:
应用于政府ismart网络舆情检测分析系统:该系统可作为网络舆情监控平台应用于优异各级政府、军事、公检法等各职能部门,为其增强防范和化解网上舆论危机的能力,加强正面舆论引导提供强大的支持和协助。
应用于企业的ismart企业竞争情报系统:该系统是现今最为先进的自然语言分析技术为基础,结合信息采集于分析模块、品牌管理分析模块,为企业用户及时掌握信息情报、进行高效管理、应对激烈的竞争环境提供全方位的解决方案。
应用客服领域的ifaq客户服务支持系统:对数据库进行智能化分析,在海量问答数据库中进行即时语义比对,智能识别,为客服人员迅速提供客户解决方案或问题答案提供支持,使客服应用效果大幅度提升。在较少客服工作量的同时,提升客户服务满意度。
应用于媒体行业的itrack媒体影响力分析系统:通过对新闻稿件全网追踪,绘制传播途径,并依据先进的媒体传播影响力分析模型,完美描述关注稿件的媒体影响力。

接受采访
在论坛的间隙,上海语天总经理张克旭、上海计算机软件技术开发中心主任宗宇伟、上海张江(集团)有限公司客户服务中心主任俞晓接受媒体采访,就语义搜索在国内的发展情况做了更为详细的介绍。
据介绍,早在80年代,科学家就语义搜索展开开始了研究。但语义搜索至今还是一个不成熟、不独立和市场化程度很高的市场。现在只是刚刚有一些产品推出。
相比百度、谷歌这样的传统关键词搜索引擎,语义搜索提供聚类方式搜索,还能提供问句式的搜索。尤其是在专业、科技文献方面,因为搜索的方法不同,比起普通搜索引擎更容易找到。所以目前主要在政府、科研以及大中型企业中发展,以专业领域垂直搜索为主,要等待成熟后才会进入大众市场。
由于网络的发展,越来越多的社会舆论体现在互联网上。企业对于舆情不够关注产生严重不利后果已经非常显著,如丰田的质量问题。如何控制、管理?目前,在舆情监控方面,语义搜索表现出众,可以监测褒义、贬义的评论和统计。有了舆情管理,就方便企业、政府去了解,去监测,制定对应措施。
上海语天作为语义搜索的标杆企业,通过上海计算机软件技术开发中心提供的20多台服务器和带宽正在为政府机关做舆情监控,比如嘉兴市政府、世博会。企业市场拓展方面,语天也与董秘协会合作,为许多上市公司做舆情监控服务。通过提供专业服务,收取服务费来盈利。预计未来,企业会占据六七成以上。未来,还会进入移动互联网、移动搜索领域,寻找盈利模式。最后进入个人互联网搜索,通过精准搜索加精准广告营销,尝试作为利润来源。
目前,上海语言已经从单纯研发期走入了创收期,年底有望达到日常运营的收支平衡。接下来,上海语天还会加大企业级用户的营销工作,预期可以达到800万到1000万元收入。未来有望获得2000万元人民币级别的风险资金支持。目标是在三年左右时间,争取创业板上市,获得资金进入大众搜索市场。
上海计算机软件技术开发中心和张江集团给与上海语天非常大的帮助。宗宇伟认为,大众为了搜索一个结果,通过一个不太精确的搜索引擎做了许多查找,反复查找,是一种低效率、高能耗的行为。而语意搜索能精确、快速找到结果,尽可能高效地做到,则是一种绿色环保的行为,值得支持。
上海语天通过这次论坛推动自然语言处理技术的快速发展和应用,进一步提升各界对自然语言技术应用价值的了解,促进自然语言技术在各应用领域内的推广,营造良好的信息检索及信息服务的服务环境。