技术开发 频道

上证所:数据从整理到深度分析

  面对证券行业的激烈竞争,满足内部办公自动化和部门间便捷沟通的信息系统,已不能适应上海证券交易所的业务发展需要。2000年底, 上证所开始考虑利用交易所的独有数据,发挥其潜在价值。上证所采用两期项目从而实现了这个目的。

  历史数据的加载和清洗

  项目一期2002年10月~2003年10月

  上证所希望通过数据仓库及数据挖掘平台的建设,提升交易所的信息化水平,有效地提高决策支持水平、市场监管水平和服务水平,促进证券市场产品创新,并更好地服务于证券信息产品的所有相关环节。

  2002年10月,上证所启动数据仓库一期工程。作为上证所三大重要项目之一,数据仓库起着承上启下的作用,将与新一代交易系统、消息总线、新网站、3GSS等共同构成未来交易所的IT基础架构。上海证券交易所总经理助理、总工程师,新信息项目组组长白硕说,2002年中期,上证所开始进行严格的性能测试和专家评审。性能测试可以看作是整个项目实施过程的预演(概念验证)。本次测试数据量是国内同类测试中数据量最大的一次。通过这次测试,将来在系统建设、生产过程中可能遇到的问题(包括技术层面、实施过程)大部分得到了验证,降低了将来项目的实施风险。最终,上证所采用了NCR Teradata的海量并行处理技术和先进的数据仓库实施方法论。

  上证所抽调精兵强将组成项目组,制定了项目管理、文档规范、安全保密、变更控制、汇报制度等,专门设立项目管理委员会,所有重大事项均通过管理委员会进行决策。根据项目内容,划分了介质、数据分析、加载、应用等多条主线。全部实施过程经过了信息调查分析、业务需求分析、逻辑数据模型设计、体系结构设计、物理数据库设计、ETL设计开发、历史数据加载、备份、业务应用设计开发、系统测试、验收移交、用户培训及知识转移等各个环节。

  在科学的逻辑数据模型基础上,上证所通过恢复历史备份的数千张光盘和磁带,完成了1990年至2003年这13年交易历史数据的整合与存储。通过对多个交易相关业务子系统的处理,完成了交易相关上市公司、会员、基金、债券、指数、板块、统计数据等信息的整合。通过设计对非结构化数据的整合方案,完成了交易所7大业务部门长期积累的数百万页非结构化文档信息的存储,并且通过建立数据自动加载机制,完成了对于以后日常业务增量信息的自动加载处理。数据仓库一期完成了上证所基本信息平台的搭建。通过集中、统一的数据中心对所有结构化信息和非结构化信息的整合机制,最大程度地保证了上证所自建所以来所积累的全部历史信息,以及以后新增的所有有价值数据的完整性和可用性。这为未来数据深度挖掘分析、信息经营提供了数据来源。

  深度分析 创新应用

  项目二期2004年12月~2005年12月

  上证所数据仓库一期完成了对历史数据的翻录、清洗和加载。利用这些数据,上证所实现了一些最亟需的应用。但是从长期发展来说,上证所需要对数据深度分析,从而实现业务创新,这就需要数据仓库二期工程的补充。白硕说,希望分步实施,“沿途下蛋”,实现逐步成果的释放,同时减少项目风险。

  2004年12月,上证所启动数据仓库二期,2005年12月基本完成。从管理角度,数据仓库的建设实际上整合了很多系统各自的建设布局,结束了之前缺乏全局性的无序建设局面。全局数据的关联,将基础性数据工作与增值性工作做出了一个恰当的分工。白硕说,数据仓库实现跨系统互联、跨部门共享和跨应用互联,将原来分属的分立技术整合为跨系统的集成。如果各个部门分别在不同的部门进行数据管理的话,这会造成总体数据共享的障碍,数据仓库的建设帮助上证所实现了跨部门数据的共享。如果每个应用只属于某一小部分数据,那么它所发挥的潜力就会深受限制,而通过数据仓库这个纽带,数据得以集中,原来分属于不同应用的数据,被关联起来。

  上海证券交易所新信息项目组副组长皮六一说,数据仓库二期实现上证所深度监管、支持产品创新和服务信息经营三大目标:一是通过信息数据共享,提高监管能力;二是通过对ETF、权证、指数定制等新业务提供数据支持,提高创新能力;三是通过对信息数据的加工,为信息公司提供LEVEL2静态数据和数据产品目录,为上证所信息经营提供全面的数据资源。

 

0
相关文章