图文详情

当我们用手机和智能设备调用ChatGPT、文心一言等大语言模型（LLM）时，一个关键问题常被忽略——这些“巨无霸”模型的算力需求远超手机等终端设备的处理能力。直接上传数据到云端虽能解决算力问题，却面临隐私泄露、延迟高等挑战。怎么办？

我国浙江大学联合之江实验室的最新研究给出了新方案：通过“动态分层拆分+强化学习”技术，让大模型在手机（用户设备，UE）和边缘节点（如基站）间灵活分工，既降低终端算力压力，又保障推理性能，训练时间更从24天缩短到7.7分钟。

大模型边缘部署的“两难”：算力与性能的拉锯战
大语言模型（如LLAMA2-7B、Mistral-7B）通常有几十到上百层，每层计算都需要大量算力。直接在手机等终端运行，可能因算力不足导致延迟高、耗电快；若全部依赖云端，又需传输大量中间数据，在无线网络中易受噪声干扰（如信号衰减、丢包），影响模型输出质量（用“困惑度PPL”衡量，值越小性能越好）。

传统方法通过固定分层拆分（比如前5层在手机，后27层在云端）平衡算力，但无线网络条件瞬息万变——用户从开阔地走进电梯，信号可能从“满格”骤降为“弱网”，此时固定拆分要么让手机“累瘫”，要么因数据传输噪声导致模型“犯迷糊”。

动态“拆层”：用强化学习当“智能调度员”
研究团队想到，既然网络条件在变，拆分策略也该“随机应变”。他们将问题转化为一个“动态决策游戏”——用强化学习（RL）算法当“调度员”，根据实时网络状态（如噪声强度、信号衰减程度）调整拆分层数，目标是让模型性能（PPL）和手机算力负载“双达标”。

但直接训练强化学习模型需要反复测试不同拆分策略的效果，耗时又耗资源（传统方法需24天）。为此，团队引入“奖励替代模型”：先用少量真实数据训练一个神经网络，模拟大模型在不同拆分点和网络条件下的PPL表现。这样，强化学习无需每次都调用大模型实测，而是通过替代模型快速评估策略效果，训练时间从24天暴降至7.7分钟，资源消耗从16.3GB降至不足1GB。

实验验证：手机“轻装上阵”，模型“少犯迷糊”
在LLAMA2-7B模型和WikiText-2数据集（含4355句日常文本）的测试中，该方法展现了强大的适应性：

弱网场景（丢包率0.1-0.3）：当信号变差时，算法会自动将更多层“搬”到云端，减少手机算力压力，同时通过云端更强的抗干扰能力保持模型性能。实验显示，此时模型PPL仅比理想状态（无噪声）高约5%，远低于传统固定拆分的15%以上。
强网场景（丢包率0-0.1）：算法则倾向于让手机多跑几层，减少数据传输量，手机算力负载降低30%，但模型PPL几乎与全云端运行持平。
更关键的是，训练后的算法能在4毫秒内完成一次拆分策略调整，真正实现“实时响应”。

未来：让大模型“聪明”适应千变万化的网络
这项研究为大语言模型的边缘部署提供了“动态适配”的新思路，未来或可应用于智能城市（如实时对话助手）、工业物联网（如设备状态分析）等场景，既保护用户隐私，又降低云端压力。

论文作者表示，下一步将优化算法在高速移动场景（如高铁、无人机）的适应性，并探索支持更多大模型架构（如GPT-4、Gemini）的通用方案。随着技术成熟，或许不久的将来，我们用手机调用大模型时，背后的“拆层策略”会像“智能管家”一样，自动根据网络信号调整分工，让体验更流畅、更省电。

来源: 信息与电子工程前沿FITEE

4毫秒训练加速！大模型边缘部署如何平衡性能与算力？

科普中国系列品牌网站

入驻科普号

合作机构