手机相册里的照片、摄像头拍到的街景、智能手表记录的运动轨迹……这些分散在边缘设备上的海量数据,90%以上是没有标注的“无字天书”。传统联邦学习虽能保护隐私(设备本地训练,仅上传模型参数),但严重依赖有标签数据;无监督学习虽能从无标签数据中“挖宝”,却因设备数据分布不均、训练随机,导致不同设备的AI“各说各话”——如何让分散设备的AI用“同一种语言”协同学习?

近日,浙江大学团队提出联邦无监督表示学习(FURL)框架FedCA,通过“共享词典”和“标准模板”两大设计,让分散设备无需上传隐私数据,也能协同学习高质量特征。相关成果发表于《Frontiers of Information Technology & Electronic Engineering》。

分散数据的“语言困境”:两个核心矛盾

联邦学习(FL)是隐私保护的“护城河”,但现有方法像“挑食的孩子”——只吃“有标签数据”这口饭。而现实中,手机、摄像头等设备每天产生的未标注数据,像散落的拼图,单独看用处有限,合起来却能训练出更强大的AI。如何让这些“无字天书”发挥价值?

无监督表示学习(如对比学习)能从无标签数据中提取有用特征,但与联邦学习结合时,遇到两大“语言障碍”:
一是表示空间不一致:设备数据分布不均(比如A设备只有猫狗照片,B设备只有汽车飞机),导致各自训练的AI“认知世界的方式”不同——A设备的AI“只懂动物”,B设备的“只懂交通工具”,合并后模型像“半吊子专家”;
二是表示不对齐:即使数据分布相同,训练过程的随机性也会让不同设备的AI“说话角度”不同——对同一张猫的照片,A设备的AI用“毛色”描述,B设备的用“体型”,合并后信息像“乱码”。

FedCA:给分散AI装“共享词典”和“标准模板”

针对这两个问题,团队设计了FedCA算法,核心是两大“语言矫正器”:

1. 字典模块:共享“词汇表”统一表达
传统对比学习需要大量“负样本”(不同类别的数据)来区分特征,但分散设备数据单一,难以提供足够负样本。FedCA让服务器维护一个“共享词典”:每次训练时,各设备用当前模型提取本地数据的特征(相当于“词汇”),上传到服务器汇总成全局词典;本地训练时,设备用这个词典里的“词汇”作为负样本,相当于“借”其他设备的数据来丰富自己的学习。
比如A设备只有猫狗数据,B设备只有汽车飞机,共享词典就像把两者的“词汇”合并成“百科全书”,A设备学习时能参考汽车飞机的特征,避免“只懂动物”。

2. 对齐模块:用“标准模板”统一“说话方式”
为避免不同设备的AI“说话角度”不同,团队先在少量公共数据(如STL-10图像集)上训练一个“基础模型”,然后要求所有设备的模型向它“看齐”。就像老师先写一篇范文,学生写作文时模仿范文的结构和用词,确保表达一致。实验显示,加入对齐模块后,不同设备AI的特征向量夹角能控制在10度以内(此前超20度),信息“乱码”问题大幅缓解。

实验:准确率提升5%-10%,跨场景表现亮眼

在CIFAR-10、CIFAR-100等经典数据集上,FedCA的效果被验证:

  • 线性评估:在无监督学习后固定特征提取器,训练线性分类器,FedCA在CIFAR-10上准确率达71.25%(ResNet-50),比传统联邦对比学习(FedSimCLR)高3.15%;
  • 半监督学习:仅用1%的标注数据微调,FedCA在CIFAR-10上准确率达50.67%(ResNet-50),比直接联邦学习高24个百分点;
  • 迁移学习:将FedCA训练的模型迁移到新任务(如用MiniImageNet学的模型做CIFAR-10分类),效果也优于基线方法。

未来:让边缘设备AI“协同进化”

团队表示,FedCA目前主要针对图像数据,未来计划扩展到跨模态场景(如结合文本、视频、语音),让手机、摄像头、智能音箱等不同设备的AI“协同进化”。“这一技术能让分散设备在不泄露隐私的前提下,共同学习更通用的特征,为个性化推荐、智能识别等场景提供更强大的支持。”

来源: 信息与电子工程前沿FITEE