甲骨文23ai：赋予大模型时代真正普惠的意义-数据库专区

甲骨文23ai：赋予大模型时代真正普惠的意义

作者：郑凯编辑：卢敏 2024-05-22 17:23 来源：佚名

　　ChatGPT在2023年引发的大模型热潮还尚未退去，2024年Sora的横空出世，又给整个行业带来了无比的震撼，也让我们充满了无限畅想，AI和大模型到底能够给未来世界带来何种改变？

　　麦肯锡的报告预测：到2040年，生成式AI每年可为全球经济带来2.6万亿至4.4万亿美元的增长；IDC 也预测：到 2024 年全球将涌现出超过 5 亿个新应用，这相当于过去 40 年间出现的应用数总和。

　　这意味着大模型的爆发只是开始，AI产业的未来还有巨大的市场潜力。

　　但我们回到今天的原点，去审视以当下AI在企业数智化转型中的价值，会发现AI还没有成为真正的生产力，大部分的AI系统运行在创新领域和边缘应用，AI还没有渗透到企业的核心业务当中，成为企业核心业务的有力支撑。

　　这背后的原因，在于两个字：数据，以及承载数据价值的数据库。

　　选择向量数据库其实也有无奈

　　从通用大模型，迈向行业大模型之间，存在明显的数据“拦路虎”。

　　由于大模型对随着文本、图片、视频等多模态、非结构化数据的需求激增，传统预训练的方式将数据“喂”给模型，企业将会面对高昂的成本。同时，大模型存在常见的幻觉问题，时常会“胡言乱语”，这要求支撑模型训练的数据不仅要数量多，质量也要足够高。当然，还有大模型引发的数据安全新挑战，如“数据投毒”等新的攻击方式，让大模型落地行业问题重重。

　　正因为这些数据问题的出现，让向量数据库成为了大模型的“黄金搭档”。

　　向量数据库是专门为非结构化数据检索而设计，它将向量数据组成一个立体高维空间，在空间中进行模糊检索，能够快速输出权重最高的答案。所以，在企业环境中部署大语言模型，意味着必须建立向量数据库，并让它们与文档存储库和语言模型实时协同工作，以产生合理的、与上下文相关的准确输出。

　　所以，甚至有人将向量数据库比作大模型时代重要的数据基础设施。这也让向量数据库借着大模型的“东风”，迅速站上了风口浪尖。

　　但向量数据库的出现，也为企业带来了很多新的难题：因为企业的核心业务数据通常在关系型数据当中，要利用大模型支撑核心业务，就需要将核心业务数据导出到向量数据库，无形中降低了效率，也增加了数据风险。

　　同时，企业要部署大模型，就必须要需要招募更多的AI技术人才，来处理向量数据库的技术问题，并且也需要处理多个数据库并存带来的系统复杂性问题。

　　这对企业来说，实在是无奈之举。利用AI和大模型技术的本质就为了业务的简化和高效，但在底层数据处理上，没有实现简化，却反而变得更加复杂，这就违背了数智化的初衷。

　　向量数据库未必一定是一个数据库

　　回到向量数据库本身，作为大模型时代必备的数据处理能力，它一定要是一个独立的数据库吗？

　　甲骨文公司副总裁及中国区董事总经理吴承杨，也提出了这样一个问题：“企业希望向量数据库是一个数据库，还是它只是一个功能呢？”

　　换句话说，企业希望每一项创新业务都建一个新的系统吗？每一种新的数据，都采用一个独立的数据库吗？企业数字化转型的意义，是不断叠加复杂性，还是追求简单、高效呢？

　　答案显然是后者。

　　吴承杨说，“企业都要问自己一个核心问题：数据的问题要在数据层解决，还是在应用层解决？无疑，在数据层解决是最简单的方式，如果都去应用层解决就太复杂了。那么，现在向量数据库出来之后，要不要把它再集成在系统里面，继续增加应用层的复杂度？当然不要。”

　　所以，甲骨文采取的方式是：将向量化作为融合数据库当中的一个部分，而不是单独的数据库，它可以直接融入原有的数据库，应用层可以直接调用它的能力，这样就进一步简化了数据查询和使用的代价。

　　这就是甲骨文刚刚发布的Oracle Database 23ai。

　　简单、高效、安全，让大模型更普惠

　　我们知道，继甲骨文在2023年OCW上推出23c，直到今天新的长版本23ai诞生，这已经很清楚的宣告了未来十年甲骨文数据库都将围绕AI来做技术创新和升级。

　　甲骨文公司中国区技术咨询部高级总监李珈说，“因为这个新的版本专注于突破性的 AI 技术，因此我们将其命名为 Oracle Database 23ai。”同时，随着23ai的面世，其专注于AI的三个重大升级也逐一浮出水面。

　　第一是AI for Data，新的数据库把数据的应用在AI的层面上做到了更深入的加持；第二针对应用开发者，无论是无代码开发，还是让应用开发更简洁、更快捷都做出了很多设计；第三，针对关键任务 “Mission Critical”，让关键应用系统也赋予了AI的能力。

　　如何理解这三个重点带来用户的价值呢？

　　首先，AI for Data本质上是利用 AI 来简化 Oracle 的数据管理流程、提供 AI 算法等，让应用开发人员能够更容易将 AI 功能添加到数据驱动应用程序，帮助Oracle 数据库的用户或是DBA都能提高工作效率。

　　例如AI Vector Search，将业务数据和向量数据整合在一起，不需要数据在不同数据库中间来回传导，这就为业务数据的AI化赋予了无限的可能性。

　　“这意味着开发者即便没有AI方面的经验，只会SQL，也可以全盘搞定AI。”李珈说。这也意味着，企业无需专门的数据科学家/AI 专家也可以实现AI 落地。

　　其次，让开发更简单，是赋能开发者群体的关键。23ai 引入了许多关键技术来降低开发人员的复杂性，其中最具创新性和最重要的一点是引入了JSON 关系二元性。

　　李珈表示，“JSON的好处是可以按应用逻辑层次化地做开发，应用和数据叠在一起，开发速度非常快，但是数据冗余存储和更新麻烦，也容易造成数据不一致；而关系型模型则是非常简洁，而且数据的一致性又非常好，过去关系和对象这两个模型到底如何取舍长期困扰着用户。”

　　而23ai已经把这两个模型进行了结合，开发人员和客户不再需要纠结选择哪一种模型，而可以从JSON关系二元性中获得 JSON 简化开发和关系数据模型的双重优势。

　　第三，关键任务处理能力一直是甲骨文的优势。而23ai作为融合数据库，它将向量化数据和业务数据整合，不需要业务数据在复杂的数据处理过程中搬来搬去，从而遭遇更多安全挑战，这本身就加强了企业将核心业务AI化的信心。

　　事实上，甲骨文数据库过去几十年来给予企业客户关键业务的保证，也形成了这些客户敢于利用23ai支撑AI开发和业务创新的底蕴。

　　客观地说，甲骨文23ai的到来，是让大模型的能力更为泛化，用户无需去寻找第三方厂家做向量数据库，无需担忧核心业务数据如何与向量数据做转化和同步，甚至不用雇佣新的AI科学家，就能够更简单、便捷的走向AI应用的创新。

　　这是23ai赋予今天这个大模型时代的真正普惠的意义。

关注我们