在科技创新洪流中,"数字转型"已不再是一个遥不可及的概念,而是各行各业谋取生存与发展的重要支撑点。在这一过程中,"探索新架构"已成为企业跨越传统边界的重要引擎,也是通往智能化未来的重要航道。
2024年5月31日~6月1日,由IT168旗下ITPUB企业社区平台主办的中国系统架构师大会-专题研讨会•北京站,在朗丽兹西山花园酒店召开。本届大会以“数字转型 架构演进”为主题,设置了多场专题研讨,这也是本次大会的亮点,由原来的大会演讲模式,变革为专题研讨会模式。
打破传统模型,深入交流与沟通!大会吸引了技术人群的高度关注,来自CTO/CIO、技术总监、高级系统架构师和IT经理等业界精英汇聚一堂,深入了解系统架构的实际应用和实践,共谋行业发展之道。
▲ITPUB总经理、SACC中国系统架构师大会创办人唐川
大会首日,ITPUB总经理、SACC中国系统架构师大会创办人唐川发表了开场致辞,他重点介绍了架构师大会举办的初衷,以及过去几年来的变化。ITPUB社区充分发挥了“传帮带”的作用,通过立体式服务打造,成为了连接不同技术人群、推动技术交流和知识传承的重要桥梁。
ITPUB探索了多种内容传播路径,包括针对技术工程师的直播技术系列讲座、针对技术专家和技术主管的小范围圆桌讨论,还有专业的技术培训,包括今天重点推荐的SACC架构师大会这种专题讨论。
SACC中国系统架构师大会已经连续举办了十八届,不仅有效促进了技术人群之间的交流和合作,也推动了整个技术生态的繁荣和发展。
生成式AI时代的新计算架构
随着生成式AI技术的进步,计算架构正经历重大变革,以满足日益增长的算力需求。数据中心逐步转变为AI工厂和AI云,当前的挑战是如何通过数千、万甚至十万个GPU卡的协同工作完成一个任务,或者支持多个任务的并行执行,实现高性能计算与云计算的深度融合。
▲NVIDIA网络亚太区高级总监宋庆春
NVIDIA网络亚太区高级总监宋庆春,在《生成式AI时代的新计算架构》主题分享中表示,在AI应用场景中,采用传统的网络监控方式看到的网络流量与实际通信流量存在显著差异,只有了解了实际应用中的通信模型,才能有效解决网络瓶颈问题。
在生成式时代,常规方法难以准确捕捉到AI训练时的突发式通信特性,导致对网络资源分配及性能评估存在偏差。通过采用先进的网络评估手段,NVIDIA提出了一种基于动态路由、性能隔离和网络计算技术的全新网络架构,满足了现代AI数据中心对于极致性能的追求。
NVIDIA专门为生成式AI云而打造的 Spectrum-X 以太网网络平台和 NVIDIA Quantum InfiniBand 网络平台,旨在优化AI训练过程中的通信效率和性能稳定性。该架构特别强调无损网络和对突发流量的适应性处理,以确保在高负载下仍能维持高效通信。通过实验验证,这种新技术能够有效提升网络利用率和AI训练任务的性能,为AI云服务提供更可靠的基础设施支持。数据中心成为了计算单元,网络决定了数据中心的性能,成为当前构建高性能AI云的核心指导。
国产分布式数据库架构的挑战与能力升级
构建现代化技术栈,少不了要和数据库打交道。而在国产化替代背景下,“去O”是一个系统性工程,在应对Oracle迁移过程中需要面对各种挑战,比如:前期需要进行需求分析、优化及性能提升,中期的技术选型与系统集成测试,后期的应用适配与调优等等。尤其对于那种20多年前的系统来说,很多业务完全生长在Oracle数据库上,这种数据库如何实现平替?
▲腾讯云数据库产品总监王云龙
腾讯云数据库产品总监王云龙,以《TDSQL PG深度去O能力和项目实践》为主题,全面介绍了TDSQL PG产品的自主研发过程,特别是TBase内核层面的升级和优化,强调了其在兼容性、性能及存储方面的综合能力。
TDSQL PG通过升级现有的分布式架构,实现了数据库系统在高性能、兼容性和安全性方面的显著提升。具体可概括为4个方面:1) 实现了行列混存的存储引擎优化;2) 引入分布式数据库架构以应对高并发和短查询的写入挑战,改变了集中式数据库带来的弊端,特别是Oracle等传统数据库在处理复杂查询时存在差距;3) 对网络框架进行了优化,以减少数据重分布导致的网络风暴问题;4) 在查询优化方面实现了重大进展,在TPC-C基准测试中,查询性能提升了50%,全并行框架性能提高了五倍。
数据库替换不是一家所急,腾讯云数据库不仅在自研产品方面做出了重要贡献,还在积极推动OpenTenBase开源数据库生态。OpenTenBase开源五年来,已经覆盖业界上万+开发者生态。展望国产化数据库未来,腾讯云数据库希望与开源生态共同成长,期待广大开发者能参与到OpenTenBase开源生态中来,共建国产数据库事业。
向量数据库应用及存算分离架构演进
向量数据库在大模型时代扮演着关键角色,但许多客户在开发Demo和实际生产中的效果偏差较大,如何基于最新架构设计,满足RAG快速应用需求?
▲腾讯云数据库高级工程师王行健
腾讯云数据库高级工程师王行健,在《腾讯云向量数据库应用及存算分离架构演进》主题分享中,重点介绍了腾讯云向量数据库在多分片架构、多副本机制以及水平拓展的向量索引方面的表现。
腾讯云向量数据库在存算分离架构采用了分布式设计,将任务拆分为多个模块以实现负载均衡,通过数据分片和多副本机制提升系统的可扩展性和可靠性。同时,引入了水平和垂直扩展技术,利用索引来优化查询效率,并通过日志管理增强数据一致性与容错性。此外,该架构还支持动态扩缩容,以应对不同规模的数据处理需求。
目前,腾讯云向量数据库已成功应用于实际项目中,不仅腾讯集团内部接入,包括腾讯会议、腾讯文档等40多个业务,还有2000多家外部客户在使用,在百川智能、元象、新东方等客户群中获得了良好的性能表现与客户反馈。
多云多活架构的探索和实践
从单一架构跨越到多云多活架构,自如集团在架构演进过程中,具体遇到了哪些技术挑战,最后采取了怎样的解决方案?
▲自如集团技术中心负责人应阔浩
自如集团技术中心负责人应阔浩,在《自如多云多活架构的探索和实践》主题演讲中,介绍了物理架构的五年战略规划与演变。在基础架构建设前期,主要面临稳定性问题,通过引入监控报警和中间件改进;接着推进平台化,扩展到三个中心并加强技术中台;随后注重业务整合和安全体系建设;现在,目标降低成本的同时保持稳定性,同时计划未来几年进一步扩大国际影响力。
针对业界关心的上云还是下云的问题,应阔浩以自如为例,梳理出四个关键阶段。在单中心的时候,大概有300个物理机,当时是虚机为主,PV是一个亿;到了双中心,是700个物理机,5亿PV,当时用了专用机;三中心的时候,是1000个物理机,13亿PV,采用了容器和微服务架构,还有独立的数仓;混合云阶段,老旧服务器设备过半,IDC带宽昂贵,这时候考虑把专业的事交给专业的厂商去做。
任何一项技术好与不好,省钱与不省钱,都要从实际情况出发。对于自如来说,云服务有效降低了带宽和托管成本,避免了故障隐患,提升了工作效率。未来的目标是,通过云计算逐步替代本地中心的物理机。
多模态大模型架构实践
多模态大模型是2024年的发展方向,OpenAI发布的多模态大模型GPT4-O,意味着OpenAI朝着更自然的人机交互迈出了重要一步。那么,大模型实时对话这种能力是如何实现的呢?多模态大模型如何从架构上对视频、图像、语音、文字的理解和传输在做支撑?
▲去哪儿网基础架构团队架构师-AI框架、平台能力建设专家王鹏
去哪儿网基础架构团队架构师-AI框架、平台能力建设专家王鹏,在《多模态大模型在视频生成领域的落地实践》分享中介绍了多模态大模型的架构及关键点,探讨了其在业务上的应用,尤其是在图像生成和短视频领域,如用于广告营销和提升酒店业务吸引力。
随着大模型商业化进程的加快,多模态大模型可以替代传统视频制作流程,在提高视频质量和用户体验方面发挥发挥重要作用。同时,王鹏还提出结合业务特色,利用多模态大模型创造定制化内容的重要性,通过国际酒店以及门票视频生成实践实际案例展示了多模态大模型的应用效果及其带来的业务增长。
连接数字技术世界,共创美好架构未来!SACC一直紧跟关键技术热点,为不同技术人群搭建了一个学习、交流和合作的平台。在这个平台上,技术知识与经验得到了有效的传承,技术难题能够快速解决,同时技术学习和成长也能够更进一步。
2024中国系统架构师大会精彩还会继续,我们期待能与您携手同行!未来,ITPUB社区将继续发挥桥梁作用,为技术人群提供更多的支持和帮助。