算力调度是指在分布式、多计算节点的计算环境中,基于任务的优先级、资源需求、实时负载等因素,动态调配计算资源以达到最佳系统性能和资源利用效率的过程。算力调度技术的核心在于通过智能算法将算力资源高效地分配给需要处理的任务,避免资源闲置或过载。广泛应用于云计算、大数据处理、边缘计算、人工智能模型训练等领域,是现代信息技术体系中至关重要的组成部分。

随着计算需求的多样化和海量数据的增长,算力调度的应用场景从传统的服务器集群扩展到分布式计算网络、边缘计算环境及AI计算平台。例如,在智能制造中,通过算力调度技术实现跨地域计算资源的优化调度,以提升生产效率和降低成本。此外,在自动驾驶汽车的研发中,算力调度能够有效管理和分配大量的传感器数据处理任务,确保实时性和准确性。

在全球数字经济时代的大背景下,算力相关技术及产业正成为推动国家经济和科技发展和的强大动力。2021年5月,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,实施推进“东数西算”工程,进一步推进中国数字经济的发展。这对于抢占数字产业链制高点,推动建设数字强国有着极其重要的战略意义1。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》明确指出,要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度”2。

简介

算力调度是解决算力供需矛盾、算力网络传输问题、算力资源普惠问题的新型能力体系。算力调度根据算力资源提供方的供给能力和应用需求方的动态资源需求,整合区域内算力基础设施底层的计算、存储、网络等多维资源,基于算力调度平台对算力资源进行一致性管理、一体化编排和统一调度,实现跨行业、跨地区、跨层级的算力资源的协同联动与精准匹配3。在资源监控方面,使用基于云的监控系统,如AWS CloudWatch或Google Cloud Monitoring,实时收集和分析计算节点的CPU、内存、网络带宽使用情况,以及响应时间和系统负载等关键性能指标。调度效果方面,这些系统通过自动化的资源弹性扩展和收缩,不仅能够应对突发的计算需求,还能确保长期运行任务的高效和稳定,从而显著提高整个网络的响应速度和资源利用率。

《新型数据中心发展三年行动计划(2021—2023年)》明确了要形成布局合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局,同时指出要完善公共算力资源供给,优化算力服务体系,提升算力服务调度能力4。

发展历史

起源及发展历程

算力调度的概念最早可以追溯到20世纪70年代,当时分布式系统和并行计算的研究逐渐兴起。早期的算力调度技术主要用于超级计算机和科学计算任务的分配管理。这些早期系统依赖于FCFS和轮询等静态调度算法,虽易于实现但缺乏弹性,难以满足复杂的资源需求,用于在有限的计算资源之间进行任务调度。然而,随着计算需求的增长,这些方法逐渐暴露出局限性,特别是在处理大规模分布式任务时,静态调度的效率不再足够。

进入20世纪90年代,随着互联网的普及和分布式计算的发展,任务的多样性和规模越来越大,算力调度技术也逐渐从简单的静态调度演变为动态调度。此时,研究人员开始尝试通过引入动态负载均衡和自适应调度算法来优化资源的利用效率。

进入21世纪,随着云计算、大数据和人工智能的兴起,算力调度技术得到了进一步的推动。云计算的快速发展使得计算资源的虚拟化和按需分配成为可能。此时,算力调度的核心从单纯的计算资源分配,逐步转向跨多个数据中心、多个区域的资源协同管理。特别是在2010年之后,虚拟化技术和云平台的普及推动了算力调度技术的广泛应用。

发展现状

目前,算力调度技术已经被广泛应用于云计算平台和大规模数据中心。例如,亚马逊AWS、微软Azure和阿里云等云服务提供商均基于高度智能化的调度算法,实现资源动态调度和弹性扩展,在全球范围内调度大量的计算资源。通过先进的算力调度技术,这些平台能够提供弹性的计算能力,适应不同的用户需求,并有效应对动态变化的任务负载。

在国家政策与产业需求的双重驱动下,作为算力网络建设的中坚力量,国内三大运营商纷纷加大对算力网络相关的技术研发投入和发展路径探索3。中国移动通信集团有限公司在2018年就开始了关于算力感知网络(Computing—Aware Networking,CAN)的研究,基于CAN的概念,从度量、协议、架构等不同层面协同演进,构建面向算网一体化的新型基础网络,目前已经完成了多个移动边缘计算站点的CAN部署,验证了CAN调度系统既能实现最优的系统资源利用率,又能实现最佳的用户体验5。2020年,中国联合网络通信集团有限公司研究院发布了《算力网络架构与技术体系白皮书》,基于云网融合领域的不断发展,制定了集算网控制、编排、管理、转发等功能于一体的算力网络体系架构,该架构能够最大限度兼容日前发展中的软件定义网络(Software—Defined Networking,SDN)和网络功能虚拟化(Network Function Virtualization,NFV)技术路线,同时实现算力资源提供方、服务提供方及业务消费方不同角色的个性化服务6。中国电信集团有限公司遵循“网是基础。云为核心,网随云动,云网一体”的十六字原则,提出云网融合目标技术架构。该架构引入云原生、安全、人工智能(Artificial Intelligence,AI)和大数据等技术要素,通过基础设施层、云网大脑、云网操作系统和应用平台实现云网边端智能协同、各类资源融合调度的发展愿景7。

关键技术

算力感知、算力度量、算力路由、算网编排、算力交易是实现算力调度这一过程的关键技术。

算力感知

算力感知是实现算力调度的基础,通过感知全网的算力资源信息,保证按需、实时调度不同位置的算力资源。算力感知既包括对算力提供方的计算、存储、通信、服务等不同类型资源与服务的感知,也包括对算力需求方业务需求信息的全面感知3。通过实时监测和收集网络中各计算节点的资源使用情况,包括CPU、GPU利用率、内存状态等,帮助调度系统获取完整的资源分布和状态信息。算力感知依赖于传感器和监测软件的支持,可以在各个计算节点上采集并汇总数据,实时反馈到中央调度系统,为算力度量和后续的调度决策提供准确的数据支撑。

算力度量

算力度量是在算力感知的基础上,对各计算节点的算力资源进行量化评价和对比,通过量化CPU、内存和带宽等资源指标,提供实时可视化的算力分布。计算需求多样的情况下,算力度量可以帮助系统做出精准的资源选择。例如,深度学习模型训练往往需要高GPU算力,而数据分析任务则需要更高的内存与I/O性能。算力度量的作用是帮助调度系统快速、准确地识别最合适的计算节点,以优化计算资源的利用。统一的算力度量标准是实现灵活调度多元异构算力资源的前提,但算力与水力、电力等能源不同,算力资源的复杂性决定了难以通过单一维度来量化算力,算力资源的复杂性主要体现在三个方面3。第一,由CPU、GPU、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)等多种计算单元组成的异构处理体系难以进行标准化的统一;第二,除了计算单元,算力资源还包括网络、存储等多维资源,需要从多个维度进行算力资源的建模和评估;第三,不同行业、不同企业、不同场景对算力资源类型和需求量的要求存在较大差异,用户很难精准把握需要多少算力8。因此,业界亟需建立统一的标准将算力业务需求量化以提供更好的服务。确定算力资源模型是建立算力度量标准的关键。主流的思路是从业务场景维度出发,将总体的算力资源统一表达为包含计算、网络、存储等多维度资源在内的综合模型3。

算力路由

算力路由是算力调度的核心技术之一,通过动态整合算力节点的资源信息,构建包括网络与计算参数的新型路由表,并根据实际业务需求为任务分配最优路径。当前的算力路由技术大多基于SDN和NFV实现集中式调度,但集中式解决方案已难以满足新型应用的实时性需求。计算优先网络作为一种分布式路由协议,将算力节点的计算状况和网络状态纳入路由信息,使用虚拟服务ID(身份识别号)来确定最优的算力节点,从而实现用户体验、资源利用率和网络效率的最佳化。算力路由通过算力与算法的动态结合,例如在内容分发网络中,算力路由选择最优路径来满足带宽需求,能够在算力资源丰富的网络中精确完成算力调度,保证优质的用户体验。例如,在自动驾驶汽车的实时数据处理中,算力路由能够根据车辆位置和附近数据中心的算力状况动态调整数据路径,确保行车安全系统的低延迟和高可靠性。在智慧城市的安全监控系统中,算力路由通过优化数据流向智能分析中心的路径,提高应急响应速度和效率,显著提升整个系统的性能和响应能力。

算网编排

算网编排是算力调度的“算网大脑”,实现了算网业务的路径编排和控制。算网编排基于算、网、数的多元组合能力,进行资源的路径编排和路由选择,确保算力资源能够跨域协同。算网编排具备云原生编排能力、多量纲的编排能力以及运行态的编排能力8。云原生编排指应用程序无需进行复杂的适配性改造,由算网大脑提供通用性编排框架,实现应用程序的自动、灵活、敏捷部署及扩缩容编排。多量纲的编排指通过多属性决策算法,对算网资源中的成本、安全、能耗等多量纲进行实时业务编排,为用户编排多种解决方案。运行态编排指根据算网资源实时状态变化,由动态编排引擎根据业务特性进行动态拼装,形成新的流程模板最终交回业务调度引擎,实现流程的动态调度和运行。例如,当网络流量激增时,运行态编排可以自动调整资源分配,确保服务连续性。未来,可在现有的编排技术基础上利用人工智能技术,通过机器学习实现对历史运行数据的学习和分析,进一步丰富调度策略、校正调度精度3。

算力交易

算力交易是指算力提供方与算力需求方通过算力交易平台进行资源交易的新型商业模式。算力交易平台作为算力买方与卖方的中间角色,基于“身份、协议、订单、账单、佣金”等方面的可信交易体系,根据用户的差异化需求,实现智能、公平、泛在、可溯、可信的算力交易3。算力交易方式多样,通常包括按需租赁、竞价交易和资源拍卖等。按需租赁模式允许用户按小时或按天租用算力资源,满足临时计算需求,适合短期项目。竞价交易类似于云平台上的“现货实例”,用户可以通过竞价获得更实惠的算力资源,但资源的分配会随市场需求动态调整,适合成本敏感型用户。资源拍卖则在计算资源紧缺时,让用户通过出价竞争获得算力。但由于算力资源种类繁多且由多方共建,总体呈现多维异构、多级泛在、归属复杂的特点,想要实现高效的算力交易需要解决算力并网问题、算力感知问题、多方交易公平问题、多方算网激励问题、可信算力交易问题五大问题9。需要从算效、时延、绿碳、安全等多维度分类分级制定算力产品价格体系。基于多维感知精准解析实际业务需求并通过优化算法匹配出最合适的算力供给方。此外,可以利用去中心化的分布式、可信区块链技术。实现对多方闲散算力资源的整合以及统一运营管理3。

发展前景

随着5G、人工智能、物联网(IoT)等技术的进一步发展,算力调度技术在多样化应用场景中的作用将更加突出。在5G时代,算力调度将成为支撑边缘计算的关键技术,帮助快速分配和管理广泛分布的边缘节点资源,为超低延迟的应用(如增强现实和虚拟现实)提供计算支持。同时,物联网的迅速扩展对实时数据处理和资源调度提出了更高要求,算力调度能够支持IoT设备的高效协作,实现跨设备的智能调配和实时响应。未来,算力调度有望实现高度智能化、实时性和广泛协同,推动算力资源的普惠共享与高效利用,逐步构建出真正的“算力网络”,实现算力的随取随用。

未来,需要算力调度技术在异构算力纳管、算力感知和度量、跨层跨域智能调度、一体化协同服务、数据安全等方面进一步创新和突破。随着CPU、GPU、FPGA、ASIC等芯片的融合应用,算力呈现出异构多样化,需要进行统一纳管。通过量化异构算力资源和多样化业务需求,建立统一的描述语言,建立算力资源度量和计费标准。通过不同的调度引擎和调度算法,保证算力使用的便捷性,支持资源自动化和智能化分配,实现跨层跨域的智能调度。同时在算力调度和使用过程中,会产生海量数据,需要关注数据安全。根据业务的需求,对网络和算力进行管理和监测,满足绿色、共享、智能、可信的算力服务,更好地支撑算力的应用10。

来源: 百度百科

内容资源由项目单位提供