在大模型深入千行百业的路上,有很多难关要过,新技术深入产业向来是关关难过关关过,一些公司铺路搭桥,降低大模型落地门槛。
星环科技创始人、CEO 孙元浩
在日前举办的2024向星力·未来数据技术峰会上,星环科技创始人、CEO孙元浩宣布,星环科技的定位从Data Infra进一步延伸到AI Infra,为企业客户打造AI基础设施,打造从语料处理、模型训练、知识库建设等的一整套的工具链,帮助企业快速建立行业大模型,快速使用生成式AI(AIGC)。
当前企业在落地大模型时有哪些机遇和挑战?有哪些重点和难点?从Data Infra到AI Infra,星环科技有什么变化?如何帮助企业应用大模型?
大模型落地的机遇和挑战
2023 年是投资生成式AI 的计划年,而 2024 年则是从这项新技术中获取商业价值的一年。
根据IDC调研,生成式AI正加速产业落地,未来几年生成式AI市场会以超过50%的年复合增长率增长。目前,全球绝大部分的企业已经开始投资或者评估生成式AI相关应用,其中大概有55%的企业已经在大规模地投资生成式AI技术,另有34%也在进行相关的POC测试。而在亚太市场,整体比例更高,达到95%,亚太地区企业对于生成式AI技术的认可程度超过全球平均水平。
当前亚太地区生成式AI的应用还处在早期阶段,对生成式AI的投资主要集中在 AI算力、大模型开发等AI基础设施层面,较高的认可度也使得亚太地区有更高的增长潜力。
孙元浩指出,大模型技术将快速融入企业生产经营的方方面面,企业应用的构建方式发生了变化,未来可能以大模型和Agent作为中心来重构企业应用。比如ERP、HR、CRM等系统与大模型结合,可以让大模型作为代理,把任务要求提交给Agent,大模型直接调用现有的工具和应用,实现工具自动化,自动生成报价单做合同审核等。
但是企业在落地大模型过程中也发现不少挑战:
在供给侧,通用大模型数量快速增加,并不断升级迭代,但是却不能适应企业AI应用的需求。大模型要落地千行百业,需要在通用大模型基础上训练出领域/行业的大模型或者适合企业自身的专有大模型。
在应用侧,准确性和安全性是影响大模型落地的首要问题。Scaling law虽然是大模型第一性原理,但是在产业落地时单纯卷参数无法有效提升准确率,高质量的语料成为影响模型准确性的瓶颈。
大型企业内部都存在着海量多元异构(结构化、半结构化、非结构化)的数据,需要让企业自身做好相关的数据整合准备工作,才能够真正把大模型这项技术引入到企业内部。但是数据的清洗、治理以及知识图谱构建是脏活累活,需要很高的投入。
孙元浩特别强调,海量多元异构数据分散在企业的不同的系统,把现有数据资料整理成适合大模型的高质量语料来训练或微调模型,这是目前企业应用大模型最大的挑战。
此外,试错成本高、专业人才匮乏、数据基础设施建设不足、缺少知识库支撑、算力不足等也成为企业应用大模型的挑战。
在本次峰会上,星环科技给出了解决以上问题行之有效的方案。
星环科技为大模型落地铺路搭桥
去年的峰会上,星环科技发布了自己的大模型和大模型应用开发软件栈,既授人以鱼也授人以渔,孙元浩指出,星环科技的基本策略是提供工具,让客户、合作伙伴基于自己的行业知识和行业积累打造自己的大模型,开发大模型应用。
本次峰会上,星环科技的定位从Data Infra进一步延伸到AI Infra,为企业客户打造AI基础设施,为大模型落地铺路搭桥,是去年策略的进一步落地。
所谓AI Infra,包括语料开发与知识图谱构建工具、大模型基础服务以及知识存储管理平台。通过过去一年在大模型领域的实践积累,星环科技重磅推出了知识平台Transwarp Knowledge Hub(TKH),为企业提供一个全面、高效、智能的数据处理和知识管理解决方案,可以实现企业内部所有资料知识化的目标,并且可以统管企业Al Infra算力、语料、模型和应用,助力企业打造安全可控的AI Infra,帮助企业快速使用AIGC。
-
在语料开发和知识图谱构建方面。高质量的语料是提升大模型准确性消除幻觉的关键,而高质量的语料需要数据多元和及时性。
星环科技推出的语料开发工具Transwarp Corpous Sudio(TCS),覆盖了语料获取、清洗、加工、治理、应用和管理的全生命周期,能分布式的高效处理海量语料。企业用户利用TKH提供的星环图谱构建工具Transwarp Knowledge Studio for LLM(TKS),可以将企业内部数据、个人经验数据和公开信息数据转化为知识,构建知识库。
在大模型基础服务方面。星环科技自研无涯大模型Infinity提供了灵活的部署模式,包括私有化部署(AIPC版、企业版)、公有云服务等,基于无涯大模型底座,星环科技微调了三款垂类大模型,包括问答大模型、数据分析(代码生成)大模型和多模态大模型,以应对内容生成、数据分析图片及音视频理解及检索等多样的使用场景。
-
星环科技推出的大模型运营平台Transwarp Sophon LLMOps,提供一站式企业级大模型生产及应用全流程开发工具链,助力企业完成从预训练、微调,到强化学习,到持续模型评估的全生命周期,支持自研的无涯大模型和第三方模型的纳管与运维管理,并提供安全可靠的环境,也支持智能体快速构建。
在知识存储与服务方面。高质量语料和知识图谱的构建离不开数据底座的支持,星环科技夯实了面向LLM的数据底座。基于Transwarp Data Hub for LLM知识管理平台的多模型统一技术架构,支持关系型数据、向量数据、全文检索、图数据、时序数据等统一存储管理,满足各类场景下多模态数据的统一存储管理与服务,大幅简化知识库的知识存储与服务层架构,降低开发与运维成本。
升级后的TDH 9.4,其分布式文件系统TDFS基于Raft语言重构元数据管理节点,支持10亿级以上的大小文件的存储,并同时支持对象存储,基于Raft保障强一致,支持HDFS平滑迁移。推出分布式Python引擎,进一步支持Python生态,能够用Python语言清洗动辄百T甚至PB级数据。
新推出的StellarDB 5.1实现了向量/全文模糊检索、秒级子图匹配、跨集群数据灾备、RAG增强大模型、GPU算法加速等功能,更稳定、更安全、更易用;新推出的ArgoDB 6.1 版本以“增量数据实时处理”技术为基础,提供多模分析、实时数据处理能力;TimeLyre 9.2新增了多模型时序分析、极速分布式回测平台、投研数据中台、时序数据湖引擎等。
“从语料处理、模型的训练、微调,算力调度到知识库构建、智能体构建、应用构建,以及维护、持续改进,这些可以形成AI基础设施,今天星环已经把这套工具链做完整了。”孙元浩说。
小结:智能正在加速,未来已来
在过去一年的大模型实践过程中,孙元浩发现原来数据基础较好的企业应用大模型会更容易,只要引入AI Infra即可,而数据基础薄弱的企业可能先要把基础设施建设起来,再引入大模型。星环科技新推出的知识平台TKH其实是将Data Infra与AI Infra融合起来,一些小企业此前没有构建大数据库等基础设施,也可以直接使用TKH一步到位,自动构建知识库,直接使用大模型。正在使用TDH的企业也可以很方便地升级到TKH,快速落地大模型应用。
取得好的模型效果,需要企业数据准备就绪,并有能力基于准备好的数据构建企业自己的专有大模型和AI应用。星环科技将多年来的行业积累实践和技术工程实践把Data Infra与AI Infra整合成一套工具,帮助企业将基础设施建好,减少试错成本。智能正在加速,未来已来。