数据库 频道

HashData:让大模型“飞入寻常百姓家”

  谁是当下中国乃至全球的“科技顶流”?毫无争议,AI大模型是当之无愧的领导者。然而,大模型对于数据、算力、专业人才等方面有极高的要求,对于大多数企业而言,参与新生产力时代需要一种更经济、更简单的方式。那么,普惠的大模型时代会到来吗?大模型在企业中能否实现规模化落地?大模型对数据仓库能够带来什么价值?两者如何实现融合?

  在IT168旗下ITPUB企业社区平台主办的第十六届中国系统架构师大会(SACC2023)上,酷克数据首席科学家杨胜文分享了如何将LLM与以HashData为代表的现代企业数据仓库相结合,以实现更加便捷高效的数据处理、模型微调和知识增强的智能应用构建。

  杨胜文博士现任酷克数据首席科学家。曾任百度大数据技术委员会主席、主任架构师、大数据部技术负责人,更早前在EMC、Yahoo Beijing Labs、HP Labs China从事研发工作。在大数据分析、数据挖掘、数据智能等领域深耕多年,在互联网用户理解、产业数据智能、人工智能行业应用等领域有着丰富的实践经验。

  如何让大模型先“Run”起来?

  本届SACC2023以“数字转型 架构演进”为主题,按照技术主线分为传统架构与运维技术发展、数字化转型企业架构应用,IT技术前瞻架构等。大会的主会场主要关注企业架构转型,围绕企业的业务架构、应用架构演进历程展开分享,重点讲述企业架构转型中的经验。而AIGC正是本次大会的重点关注方向。

  杨胜文在演讲中指出,自去年11月底ChatGPT发布以来,国内外许多厂商都加大了对大语言模型的研发投入,各种模型与应用如雨后春笋般涌现。目前,企业接入大语言模型通常有两种方式:一种是通过公有云直接访问服务,另一种是通过私有化部署。公有云服务具有快速接入、可灵活选择服务供应商等诸多优点,但也存在数据泄漏的风险。私有化部署可以很好地解决数据安全问题,但千亿级参数的大模型在企业落地时面临着硬件成本高昂和专业技术人才短缺的问题。尽管如此,杨胜文认为:普惠的大语言模型时代即将到来,LLM将很快在企业实现规模化应用。这背后有两个切入点。一是充分利用现阶段百亿级参数大语言模型出色的语言理解和生成能力,以极低的成本解决企业当前面临的一些实际问题;二是将LLM与Data Warehouse有机结合,可以使数据处理、模型微调以及基于LLM的智能应用开发变得更加容易,从而大幅降低应用门槛。

  目前,大语言模型的参数动辄达到千亿级,然而,在企业落地的时候为什么要退而求其次,选择百亿级参数大模型呢?杨胜文指出,相比于千亿级甚至万亿级参数的模型,百亿级参数的大语言模型能够解决低成本私有化部署的问题。现如今,百亿级参数的模型可以轻松地在消费级显卡甚至移动设备上进行推理,这带来了巨大的成本优势。通过参数高效微调方法(PEFT),只需一张或数张消费级显卡,就能对预训练模型在企业专有数据上进行微调。在私有化部署场景下,硬件资源需求非常低,能够方便地与企业IT系统对接,实现无缝集成,并与各种产品进行连接。

  在杨胜文看来,数据仓库为企业打造垂类模型、搭建面向场景的智能应用提供了天然的数据和计算环境。企业数据仓库已经成为企业数据的存储、分析、加工、处理和计算的核心场所,通过把大语言模型带入数据仓库,可以充分利用数据仓库强大的数据处理、分布式计算、大规模向量数据存储与检索等核心优势,一站式完成从数据处理、模型微调到智能应用搭建的全流程。

  如何降低LLM应用门槛?

  百亿级参数模型是当前推动LLM在企业低成本、规模化落地的重要选择。开源社区的迅猛发展为百亿级参数大语言模型在企业低成本、规模化应用的实现创造了条件。

  杨胜文指出,在代码和工具层面,出现了许多优秀的开源项目,使得LLM的训练不再是少数人的专利。在数据层面,也出现了一批非常好的数据集,数据总量超过1万亿个Token,能够满足百亿级参数模型的训练需求。在模型层面,大型商业公司、研究机构和初创公司开发了许多优秀的模型。有了这些优秀的开源工作,训练和微调大语言模型的难度将大幅降低,但仍然存在一定门槛,包括对技术人员、计算资源和更多高质量数据的要求。

  杨胜文表示,借助数据仓库技术,可以使大语言模型在企业落地变得更加容易。这里不得不提酷克数据的旗舰产品HashData,它是国内最早实现存算分离的云原生分析型数据仓库产品。每个HashData数据仓库系统由1个元数据集群、若干个计算集群、1个对象存储以及1个管理控制台构成,具备非常优异的弹性和可扩展性。目前,HashData已经为金融、电信、能源等行业的许多重量级客户提供服务,其中在某国有大型银行已部署近3万个节点,节点规模在业内首屈一指。

  HashData拥有两种计算引擎:针对SQL查询分析任务的MPP计算引擎,以及针对机器学习和深度学习任务的ML/DL计算引擎,支持各种模型的训练和推理,包括大语言模型的微调和推理。HashData还实现了对大规模向量数据的高效存储和检索,使得基于知识增强的LLM智能应用搭建变得更加简单。

  杨胜文介绍说,基于HashData和百亿级参数大语言模型,结合业务需求,可以以极低的成本、极高的效率微调定制若干个领域模型。基于微调产生的各类领域模型以及基于HashData构建的向量知识库,可以轻松搭建包括智能问答、自然语言转SQL、辅助写作、辅助分析等智能应用。

  如何释放数据价值?

  数据作为企业非常重要的资产,如何通过数据分析、挖掘和预测等方法释放更大的数据价值,促进企业持续健康发展,是当前企业数字化建设的一个关键话题。

  杨胜文表示,数据智能和数据分析有不同的层次。目前,描述性分析已经非常成熟并被企业广泛采用,而更高级的预测性分析和决策性分析虽然能够产生更高的价值,但技术复杂度也更高,目前的普及度还远远不够。为了解决这些问题,酷克数据基于HashData开发了下一代In-Database高级分析和数据科学工具HashML,提供了从数据查询处理、高级分析到ML/DL模型的训练、推理和服务部署的全套工具,包括对大语言模型微调和推理的支持。

  HashML具有三个主要的产品特点。首先,它简单易用。HashML可以与HashData数据仓库一起安装部署,开箱即用,并通过API标准化,大幅降低学习和使用门槛。其次,它具有卓越的性能。HashML可以根据任务的复杂度确定计算的并行度,对于较为复杂的神经网络模型或大语言模型,可以利用多机多卡实现高效的训练和微调。第三,它提供丰富的算法支持。从传统的统计学习到深度神经网络,以及最新的预训练大模型,HashML都能够提供良好的支持。

  HashML为数据科学家、数据工程师和AI应用开发者提供了极大的便利,使他们能够无门槛地使用先进的AI技术。借助HashData和HashML,可以实现大语言模型低成本规模化落地的完整方案,无论是数据处理、模型微调还是面向场景的智能应用构建,一切都将变得更简单。

  如今,许多关注数字化建设的企业在数据方面已经积累了很多经验。在杨胜文看来,从数字化到智能化,需要将AI计算尽可能靠近企业数据,而不是将数据拿出来放到一个全新的平台。酷克数据希望围绕企业数据仓库构建统一的数据查询、分析、处理和计算平台,既支持传统数据仓库业务,又支持AI模型的训练、推理和部署,并使得面向各种场景的智能应用开发变得更简单。

  杨胜文表示,多元化、普惠的LLM时代必将到来,任何企业都可以借助大语言模型的能力来提升智能化水平。而未来,DATA + LLM将大有可为,特别是当模型与企业数据密切相关时,将会有更多的想象空间。企业可以通过模型微调和应用创新,在自有数据上释放大语言模型的应用潜力,从而充分释放数据价值,实现新的增长点。

1
相关文章