ChatGPT的火热引发了国内大模型的千模大战,一些科技公司甚至宣称,在大模型时代,所有的产品都值得重新做一遍。各行各业都在积极研究探索如何应用大模型,让自身走向智能化。
大模型时代,数据技术会有怎样的发展?在日前举办的“向星力·未来数据技术峰会(FDTC)”上,大数据基础软件供应商星环科技带来了他们的思考和探索。此为该公司上市后首次线下大型峰会,现场分外火爆,近2000人到场参会,在上午的主论坛以及下午部分分论坛都是座无虚席,不少晚去的参会者只能站着观看了。
在峰会上,星环科技一方面发布了大模型应用开发软件栈,既是对自身原有数据技术产品的智能化增强,也帮助企业构建自己的专属大模型,推动数智平民化发展,让每个人都拥有个性化的AI助理。另一方面,完善数据产品技术栈,不断夯实数据底座。这些让我们看到了这家公司面向大模型时代的创新进取与坚守。
如何让千行万业拥有自己的大模型?
星环科技创始人、CEO孙元浩表示,未来人人都是数据科学家,人类与数据的交互方式将发生重大变革,语言、视频等自然语言的交互方式将逐渐普及,每个人都将需要一个“虚拟业务助手”。大模型的出现有望让以上这些畅想成为现实,但是大模型在行业的应用还有不少挑战。
虽然以ChatGPT为代表的通用大模型在通用AI方面取得了突破,在理解人类自然语言、归纳、文本生成、图像生成上有惊人的表现,但是它无法理解行业术语,也不能够执行行业特定任务,更不能像一个专家一样针对行业做分析、推理和决策,在通用大模型和行业应用之间存在一个巨大的鸿沟。
为了弥合该鸿沟,需要在基础大模型上训练并持续改进大模型,将之培养成行业专家,即成为领域大模型。“我们预测,未来在金融、政府、能源、交通等每一个领域,都需要诞生很多领域或者行业的大模型,它们具有专家的能力,能够在上面构造复杂的应用。”孙元浩说。
为此,星环科技推出了大模型持续提升和持续开发工具Sophon LLMOps,在原有Sophon MLOps机器学习模型全生命周期管理的工具平台基础上,针对大语言模型及其衍生数据、模型、应用问题,提供了相应的增强,形成了LLMOps的工具链,该工具链拥有样本仓库能力、模型运维管理能力、大语言模型和其他任务的编排和调度和上线能力。再结合向量数据库Hippo、图数据库StellarDB、知识图谱等产品,以及提供运行整套大模型所需的基础设施,包括容器化管理环境、AI整套推理环境等,一并形成大模型应用开发软件栈。星环科技还推出了金融大模型无涯和大数据分析大模型SoLar“求索”。
“所以我们基本策略是提供一个工具,让我们的客户、合作伙伴能打造他自己的模型,他有行业知识、有行业积累,就可以用我们的工具很快地打造出自己的大模型出来,开发上面的应用。”孙元浩说。
星环科技在大模型应用方面既授人以鱼,也授人以渔。在AI和数据技术领域深厚的积淀是其能够抓住大模型机遇迅速推出可落地产品的重要原因。本次推出的产品主要是通过大模型对其现有产品增强,并把训练行业领域大模型的能力打包成工具产品对外输出。正如孙元浩所说,星环科技做的还是原来的业务,坚守做数据底座的使命。
比如上面提到的Sophon LLMOps,是在原来Sophon MLOps基础上针对大模型应用进行增强。而此次针对大模型特有需求新发布的分布式向量数据库Hippo,实则延续了其多模态理念,是多模态处理能力的增强,由于其大数据平台独有的统一多模型架构,提供统一的操作语言、统一的分布式计算引擎、统一的管理系统和资源管理框架,而存储层多个存储引擎支持多种数据模型,因其原来在向量索引方面的积淀,所以针对非结构化数据处理需求,可以很快推出向量模型存储引擎,进而推出该向量数据库,是一个厚积薄发的结果。
大模型为什么这么需要向量数据库?如何利用这些工具将通用大模型打造成行业领域大模型为企业所用?星环科技给出了他们的思考与实践探索。孙元浩介绍,目前无论是通用大模型还是微调出来的行业领域大模型都存在着限制,一是训练时间长,新的信息无法内置到大模型中,需要外部机制存储实时信息;二是大模型输入有token限制,需要外挂存储存放输入的信息;三是大模型会出现幻觉,需要知识库校正结果。
向量数据库(vector databases)可以很好解决这些问题,目前大模型训练语料数据主要是非结构化数据,各种类型的文档、图片、音视频等训练出多模态模型,对于训练模型本身,这些非结构化数据需要预处理转化为向量数据。比如在应用端与大模型进行交互时,可以输入文字、图片等信息,首先需要处理的是输入进行向量化,然后进入模型,在底层还有海量历史数据进行向量计算,诸如以上的向量化数据的存储,需要一个分布式向量数据库进行支撑。
“向量数据库承担了中间存储的角色,我们认为向量数据库就是大语言模型的海马体,是一个记忆体。它的基本功能是把非结构化的数据转化成高维向量,然后能够提供进一步的搜索。”孙元浩说,向量数据库可以把变化的实时知识放入到大模型中,不断训练强化大模型,但是大模型只有向量数据库还不够,会用到多模型,如校正结果需要用到图数据库、知识图谱,而利用向量数据库和图数据库、知识图谱结合,可以构建更为精准的特定领域大模型应用。
比如询问某开源通用的大模型中粮集团玉米收储价格、新希望集团主要合作上下游企业的问题,通用大模型没有行业知识,无法给出准确答案。而把农业知识图谱和向量数据库结合补充后,大模型可以回答新收的猪价以及价格影响等。
比如星环科技推出的金融领域大模型无涯,基于自身在金融领域积累的上百万金融专业领域的语料,基于星环科技图数据库、深度图推理算法技术,形成了大规模高质量的金融类事件训练指令集,二者共同铸就了星环科技开发金融领域大语言模型的坚实底座。无涯大模型能够理解金融行业的术语,也能够执行特定的任务,比如分析上市公司的年报、公告,生成新闻摘要,判断特定新闻事件产生的影响等,能够提升分析师、研究员、投资经理的效率。
智能化更需夯实数据底座打牢基础
大模型时代到来后,很多企业都想要吃到这一波AI的红利。不过大模型应用在企业业务的应用场景更多还是一个创新探索状态,企业在数字化转型的探索中,会不断引入包括大模型AI在内的数字化技术,推动企业数智化发展,挖掘数据价值,帮助企业经营、决策。其中关键还是打好基础,利用各种数据技术做好数据治理,比如上面提到的应用行业大模型所需的行业数据、知识积淀,只有做好数据治理的基本功才能提供更精准优质的业务领域数据知识,让大模型更精准。此外还需优化组织流程,以及人才队伍和文化建设。
想要做好数据治理的基本功,就需要利用包括数据库在内的各种数据技术,由于市场竞争加剧,业务更加多元且高速变化,对数据库的数据处理能力提出了更高需求,比如稳定性、可靠性、性能、扩展能力,对结构化、半结构化、非结构化数据处理能力,对实时分析处理能力的要求会越来越高。星环科技是为数不多可以提供大数据基础软件全栈产品的厂商,所以这次发布会我们也比较关注其数据库等产品方面的动态,可以说是稳扎稳打可圈可点。简单列举一下:
新推出的大数据基础平台TDH 9.3在多模型统一架构迭代升级,全新发布向量模型存储,10大存储引擎,共支持11种模型数据统一存储管理,支持统一查询处理语言完成跨模型数据流转与关联分析,让业务开发更便捷。新版本TDH推出新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,避免数据冗余,减少数据流转,提升业务综合性能与时效性。
新推出了向量数据库Hippo,进一步完善了其对非结构化处理的能力,对大模型应用也能提供更好的支持。图数据库StellarDB 5.0可以支持动态图,对接星环科技自研深度图框架ZenGraph结合,基于图数据库的查询计算能力,提供快速、准实时,甚至实时的特征查询和计算。
此外,还有面向OLAP和OLTP场景的双子星ArgoDB和KunDB。分析型数据库ArgoDB 6.0改写了Linac计算引擎进行执行优化,引入向量化算子,提升实时处理能力,新增时间回溯功能等,在多模能力方面,ArgoDB 6.0进行了增强,统一SQL接口、统一计算引擎架构、统一存储管理,采用容器化底座,实现了多租户隔离。而新推出的分布式交易型数据库KunDB 3.2,实现了分布式与集中式一体化,继续强化稳定性和性能,增强了Oracle的兼容能力和扩展能力,提供了便捷易用的图形化迁移校验工具,以及类Oracle AAS的DBA运维平台。
在国产化浪潮下,国产数据库迎来了前所未有的新机遇,竞争也较为激烈。星环科技在数据库领域是“家大业大”,算上新推出的向量数据库,可以覆盖11个数据库赛道。其国产化替代也取得了不错的成绩,比如某农商行采用ArgoDB建设了新一代湖仓一体平台,替代了原Teradata一体机,实现了多数据平台合一,降低了原有同质化的数据系统运维开发成本和数据冗余,综合成效比达到Teradata的14倍。某金融机构利用星环KunDB替代原有自建的一主多从MySQL集群,性能有显著提升。某证券利用StellarDB +知识图谱平台SophonKG打造了全新的一站式国产化企业图谱,支撑集团客户画像、风险事件报告等创新应用场景。
企业数字化转型是一个持续的系统工程,需要多个系统和数据技术栈,非单个公司所能满足,生态非常重要。而对于一个数据技术公司而言,生态也是关键,“我们星环科技是坚持做数据底座、坚持做工具链,我们是卖产值的,所以我们花了蛮多的精力去发展我们的合作伙伴,让他们开发更好的应用,促进数字化转型。”孙元浩说,星环科技坚持“平台+生态”的发展理念,与软件开发商、硬件开发商、系统集成商等生态伙伴积极合作,打造更多领域的联合解决方案,打造大数据基础软件产品应用的生态体系,而这次发布会星环科技也向外界传递出了自身的边界和坚守。