当我们用手机和智能设备调用ChatGPT、文心一言等大语言模型(LLM)时,一个关键问题常被忽略——这些“巨无霸”模型的算力需求远超手机等终端设备的处理能力。直接上传数据到云端虽能解决算力问题,却面临隐私泄露、延迟高等挑战。怎么办?

我国浙江大学联合之江实验室的最新研究给出了新方案:通过“动态分层拆分+强化学习”技术,让大模型在手机(用户设备,UE)和边缘节点(如基站)间灵活分工,既降低终端算力压力,又保障推理性能,训练时间更从24天缩短到7.7分钟。

大模型边缘部署的“两难”:算力与性能的拉锯战
大语言模型(如LLAMA2-7B、Mistral-7B)通常有几十到上百层,每层计算都需要大量算力。直接在手机等终端运行,可能因算力不足导致延迟高、耗电快;若全部依赖云端,又需传输大量中间数据,在无线网络中易受噪声干扰(如信号衰减、丢包),影响模型输出质量(用“困惑度PPL”衡量,值越小性能越好)。

传统方法通过固定分层拆分(比如前5层在手机,后27层在云端)平衡算力,但无线网络条件瞬息万变——用户从开阔地走进电梯,信号可能从“满格”骤降为“弱网”,此时固定拆分要么让手机“累瘫”,要么因数据传输噪声导致模型“犯迷糊”。

动态“拆层”:用强化学习当“智能调度员”
研究团队想到,既然网络条件在变,拆分策略也该“随机应变”。他们将问题转化为一个“动态决策游戏”——用强化学习(RL)算法当“调度员”,根据实时网络状态(如噪声强度、信号衰减程度)调整拆分层数,目标是让模型性能(PPL)和手机算力负载“双达标”。

但直接训练强化学习模型需要反复测试不同拆分策略的效果,耗时又耗资源(传统方法需24天)。为此,团队引入“奖励替代模型”:先用少量真实数据训练一个神经网络,模拟大模型在不同拆分点和网络条件下的PPL表现。这样,强化学习无需每次都调用大模型实测,而是通过替代模型快速评估策略效果,训练时间从24天暴降至7.7分钟,资源消耗从16.3GB降至不足1GB。

实验验证:手机“轻装上阵”,模型“少犯迷糊”
在LLAMA2-7B模型和WikiText-2数据集(含4355句日常文本)的测试中,该方法展现了强大的适应性:

弱网场景(丢包率0.1-0.3):当信号变差时,算法会自动将更多层“搬”到云端,减少手机算力压力,同时通过云端更强的抗干扰能力保持模型性能。实验显示,此时模型PPL仅比理想状态(无噪声)高约5%,远低于传统固定拆分的15%以上。
强网场景(丢包率0-0.1):算法则倾向于让手机多跑几层,减少数据传输量,手机算力负载降低30%,但模型PPL几乎与全云端运行持平。
更关键的是,训练后的算法能在4毫秒内完成一次拆分策略调整,真正实现“实时响应”。

未来:让大模型“聪明”适应千变万化的网络
这项研究为大语言模型的边缘部署提供了“动态适配”的新思路,未来或可应用于智能城市(如实时对话助手)、工业物联网(如设备状态分析)等场景,既保护用户隐私,又降低云端压力。

论文作者表示,下一步将优化算法在高速移动场景(如高铁、无人机)的适应性,并探索支持更多大模型架构(如GPT-4、Gemini)的通用方案。随着技术成熟,或许不久的将来,我们用手机调用大模型时,背后的“拆层策略”会像“智能管家”一样,自动根据网络信号调整分工,让体验更流畅、更省电。

来源: 信息与电子工程前沿FITEE