数据库 频道

AI大模型时代,企业如何构建数据智能基础设施?

AI与算力发展日新月异,将数据从生产资料变为生产力,还需要生产工具的加持。大模型的出现使数据的价值能够更敏捷支持智能化的实现,大幅度释放了生产力。在这种情况下,企业要如何构建自己的数据智能基础设施?

1月4日,“国产化软硬件升级替换之路”专场邀请到了天云数据Hubble产品负责人乔旺龙、滴普科技FastData产品线总裁冯森、人大金仓技术服务中心高级解决方案工程师李世辉、Fabarta资深技术专家谭宇四位来自不同领域的重磅专家坐镇,以不同的视角解读“数据+智能”这个话题。

本期ITPUB举办主题为“国产化软硬件升级替换之路”的第九期线上沙龙,主持人为ITPUB主编陶然,共分为专家分享与圆桌共话两大环节,以下为直播内容精编整理。

01 基于缓存的数据产品,支撑智能应用

天云数据Hubble产品负责人 乔旺龙

天云数据Hubble产品负责人乔旺龙围绕私域数据盘点、打通私域数据、定义数据产品、支撑智能应用四个方面进行了分享。他表达了一个观点:传统关系型数据库是私域数据重要存储。

数据驱动业务分为四个阶段:BI(发生了什么?)、DW(为什么会发生?)、ML(将要发生什么?)、AI(最好发生什么?)。

那么,如何打通私域数据?一种方法是数据全量搬家。全量数据同步,数据量大,耗时时间长,ETL加工需要大量中间处理过程,衍生中间表,造成数据混乱,数据管理复杂度增大。

另一种方法是数据按需连接。省去了数据搬家的过程,支持数据多源异构,联邦计算构建应用服务,通过语义编织,面向业务主题提供快速服务应用,支撑并发事务服务应用,简单易用。

然而,数据按需连接会面临很多挑战。比如,如何确保数据的时效性?从传统关系型数据库全库读取数据缓慢,如何分析性能?分布式直接调用业务数据库,那么如何缓解业务数据库的压力?元数据如何能够更好的管理?数据变更是一个常态,在常态下的变更如何处理?

通常的做法是在分布式计算层,把压力读取数据压力全部放到外部源上。优化后的做法是在分布式计算层加了虚拟缓存层,缓存层的数据可以变更,不会影响业务数据的访问方式,缓解业务数据库的压力。

乔旺龙给出了数据产品的定义,数据产品是一组业务表达的数据集,具备用户自定义、基于缓存实现、可以是固定的表、视图、物化视图、可以动态刷新、基于模型的自动化标签等特点。

尽管大型模型以端到端的、基于文本的输入输出格式呈现其结果,但模型与之交互并从中学习的实际数据本身并不是原始文本,而是文本的矢量表示。

通过将模型与向量数据库结合,可以让模型拥有记忆能力,可以记住并回溯使用者的对话记录、个人喜好等,模型在回答时可使用这些额外的向量数据做出更精确的判断和回答。

数据服务与业务相关,将基于专家经验形成的规则或者机器模型学习的结果,以及结合主动元数据,用在数据质量监控以及优化改进数据的准备过程(如集成流程或者引擎优化),如元数据推荐、流程推荐、资产推荐、建议推荐、执行计划推荐、计算引擎推荐等。

最后,乔旺龙介绍了天云数据Hubble数据库,Hubble数据库通过逻辑计划融合SQL、Graph、ML等实现AI-Native数据库,重新定义数据基础设施,并融合了向量化服务功能,支撑大模型私域化落地服务应用。

02 Al时代的多模数据库探索与实践

Fabarta资深技术专家 谭宇

从云、数字化再到AI,基础设施面临全新的需求与挑战。基于此,Fabarta给出的AI时代基础设施的解决方案——ArcNeural。会议上,Fabarta资深技术专家谭宇解读了多模态智能引擎ArcNeural的架构与实现,以及实践应用。

在过去不到20年的时间里,总共经历了三次大的技术浪潮。在这个过程中,有非常多的意外加速与改变了人们的认知,比如疫情加速了数字化,ChatGPT让大家看到了智能化的希望。

我们罕见看到了三次浪潮共舞的现象,一个企业可能在一边在云化、一边业务数字化、一边探索智能化,在构建基础设施的时候必须要考虑这些现状,比如企业数据是否足够支撑智能化?

考虑到企业基础设施仍然在不断演进,Fabarta推出“一体两翼”产品矩阵,在引擎层全面支持各类基础设施类型。在左侧,是ArcFabric多模态数据编织平台,负责组织和管理企业数据,提取企业数据关系与元数据。

ArcFabric将企业的私有数据整合处理后传递给ArcNeural 多模态智能引擎来数据管理。在右侧,利用ArcPilot企业智能分析平台来展现业务属性,基于此之上来构建企业智能应用。

在底层,是ArcNeural 多模态智能引擎。打破传统数据库计算加存储的本质,引入记忆加逻辑体系。其中,记忆部分为多模态智能引擎,支持图模型和向量引擎,分别负责显式和隐式关系管理。逻辑部分则利用图算法或 LLM 资源来进行逻辑推理。

为什么以图为基础来构建多模态智能引擎?谭宇表示,“从大数据到智能化,对与数据的关注点发生了本质的变化,更加关注对全部数据的理解。存储和计算会朝着记忆和推理的方向发展,发生范式转移。图作为符号系统,与以概率为基础的机器学习形成很好的补充,是可解释智能必要条件之一。”

同时,图与关系数据库不同,不仅不强调数据的本地性与局部性,而是强化了关系、变化。现实世界数据丰富多样,要利用好数据,必须接纳数据这些特性。实时更新的不仅是数据,还有数据之间的关系,这些关系也必须得到实时处理。

多模态智能引擎ArcNeural通过内存引擎实现高性能,本地存储配合Raft协议负责核心的日志数据,远端存储形态与产品内核解耦,按需交付。在存储层之上,ArcNeural集成了强大的 HTAP计算能力,它专为低延迟、高并发和复杂的实时计算设计。对于更为复杂的离线的 T+1 需求,ArcNeural提供完善的支持。

经过一段时间积累,Fabarta于2023年正式发布了ArcNeural 2.1版本。该版本主要包括以下功能特性:ArcNeural 2.1支持多种数据格式,包括图数据、向量数据、JSON 以及传统的 Table 数据结构;ArcNeural 提供完整且严谨的数据 ACID 处理能力,技术特色还包括内存引擎技术和多跳并行化处理。

除了支持云原生的弹性部署,ArcNeural 2.1还适应于分布式系统、银行的多地多中心等高级要求,并且支持模块化部署,可以根据需要进行个性部署;ArcNeural完全满足国内的生产要求,支持面向合作企业和伙伴开源。

03 人大金仓全流程系统迁移解决方案

人大金仓技术服务中心高级解决方案工程师 李世辉

关于系统迁移的需求,人大金仓技术服务中心高级解决方案工程师李世辉将其归纳为四个部分:“低难度、低成本、低风险、平滑迁移”。总的来讲,为了降低客户的压力,从容实现国产化替代。

系统迁移的整体流程主要有系统适配、测试验证、割接上线三个阶段。系统适配阶段的终极目标是代码不改;测试验证阶段的终极目标是完整快速;割接上线阶段的终极目标是服务不停。

在系统适配方面,李世辉表示,“我们采用可插拔体系架构,通过不同解析模块支持不同语法的兼容,可以快速兼容开发,降低数据库迁移难度。在数据库整个生命周期,我们提供丰富的开发接口,以及自动化工具,实现全流程覆盖。”

在测试验证方面,面向数据库、操作系统升级等场景,在数据库系统变更后,进行真实且完整的负载回归测试验证,从而节省用例构建、测试结果验证工作量,降低系统变更风险。

有了KReplay方案之后,除了捕获数据库执行的SQL、PLSQL代码外,还能捕获获其他负载特征,包括所有会话上执行的所有事务、事务的并发执行序列、语句的执行结果情况、捕获周期内系统的各种性能指标情况。

面对操作系统提供的诊断能力有限,数据库内部的性能度量单位不同、内容不全面,无法准确诊断定位等问题,人大金仓建立基于数据库时间的决策树分析模型,根据量化指标进行分析,定位问题的根因。

面对高并发下获取活动事务列表开销占比高的问题,该方案增加全局提交序列用于判断快照对事务的可见性,避免高并发下获取活动事务的开销,实现benchmarksql吞吐量增加50%。

在割接上线方面,人大金仓柔性迁移方案可以提供准在线、低侵扰、全数据功能,缩短系统割接时间。双轨并行方案具备实时性、异构环境支持、事务性保证,可以降低系统迁移风险。

人大金仓企业级应用适配开发支撑方案包括:LAC场地化按需自助授权服务,负责场地内的授权发放与统计,发放全功能、全算力、无时限授权,开发场地内无需单独申请授权,降低开发过程的协同成本。

KOPS云下集中运维管控一体化平台提供从安装部署到运行维护的全生命周期管理能力,让数据库的管控门槛从专家级降低到新手级。KRDS云上数据库全生命周期管控平台立于多云环境之上,兼顾非云纳管,提供数据库全生命周期统一管理。

04 国产一站式数据智能基础设施,助力业务智能化数字转型

滴普科技FastData产品线总裁 冯森

围绕FastData实时智能湖仓平台的技术架构与核心优势、Deepexi企业大模型的优化与实践,以及Fast5000E大模型训推一体机支撑算力平台建设,滴普科技FastData产品线总裁冯森进行了分享。

FastData基于Data Fabric架构的实时湖仓平台,是数据基础平台日趋成熟的目标架构,面向所有数据工作者提供低成本、高性能、简单易用的云原生数据平台,主要分为Workspace、Engine、Lakehouse三层。

同时,FastData基于Modern Data Stack的全流程架构来设计的。这样设计的好处是可以做一站式的平台,对数据集成、数据存储(湖仓)、数据开发与管理、数据分析与应用做独立的拆分。

FastData实时智能湖仓平台打通数据孤岛,提升性能节省搬迁成本;大数据平台支持国产化持续向湖仓演进;多模态数据的统一存储,结合AI工具统一分析;数据要素治理和资产化,释放数据价值。

随着某石油勘探院对数据的应用越来越深入,对数据团队提供数据的可靠性、及时性要求也日渐提高。通过采用FastData升级原有Hadoop平台,石油勘探院数据团队构建可靠稳定的数据采集能力、全链路实时数据处理能力和高效稳定的数据服务能力。

Deepexi企业大模型的整体架构分为Deinsight模型应用、FastAGI智能体平台、Fast5000E大模型训推一体机三方面。

Doc-Agent是滴普提供的一种结合了检索增强生成(RAG)技术的工具,支持各类文档数据的管理,旨在通过向量检索技术和大型语言模型(LLM),提升内容生成的能力和精准度,使用户能够有效地构建、维护和查询其专属的知识库。

Fast5000E是一款基于全国产芯片,为大模型提供高性能训练与实时推理能力的AI服务器。搭建滴普科技研发的集群管理服务平台FastFabric基础软件,能够共同组建千卡级、可诊断、断点续训、可扩展的多级高可靠训练集群,支持企业构建大模型落地的训练和推理一体化的算力平台基础设施;此外,搭载滴普科技Deepexi企业大模型平台,可以为企业实现敏捷的大模型产业落地。

冯森指出,“面向领域模型的全链路闭环的多模态社区,滴普科技DEEPNOVA技术社区支持模型训练数据集、领域场景精调模型、推理加速和小型化,让各种基础通用大模型在企业服务行业落地具备了完整的工具链体系,同时在企业应用推理端吞吐性能提升10倍+,大幅度降低了企业应用大模型的成本。”

截至目前,Deepexi企业大模型已经落地了很多企业,比如百丽时尚、长安深蓝汽车等等。Deepexi企业大模型大幅降低百丽的设计人员选图、出图、渲染、调整优化的时间;数万张历史鞋样数据沉淀进基础模型,创造出更懂百丽的模型;场景持续扩展,与上下游业务集成。

05 圆桌讨论

Q:你们怎么看 “平替”和“升级改造”?如何确保平滑稳定且安全的进行升级替换?并请简要分析开发、运维、硬件、运营复杂性、人力等综合成本情况。

乔旺龙:因为总行的技术实力在线,所以需要更贴合业务,围绕数据库进行升级改造。分行的技术能力欠缺,他们更侧重于获得一套整体解决方案,打包完之后直接可以平替。“平替”和“升级改造”不是概念上的区别,还取决于客户的真实需求。这是一个共生的问题,不能被剥离开。

谭宇:第一个点是看业务,是“平替”还是“升级改造”,主要看业务如何定义。第二个点是看基础设施,基础设施层面没有严格的平替,一定是升级情况。第三点看应用,应用方面主要配合数据库进行升级改造。总体上认为,这其实是一个升级过程。

李世辉:假设数据库产品兼容性能力较高、性能也可以撑起业务。那么,从实践角度来看,“平替”肯定是改造成本最低的方案。如果采用“升级改造”的方式,能够更好的发挥国产平台的优势。目前的现状是大部分的系统都希望采用“平替”的方式,很多核心系统或重要系统采取“升级改造”的方式是水到渠成。

冯森:“平替”对数据的迁移、成本方面相对较少。“升级改造”涉及到数据格式的转换、任务的转换,原有平台和新平台进行双跑一段时间,这样会带来一些成本,从长远考虑来讲,升级改造可以支撑业务未来的发展。

0
相关文章