在云计算时代,用户选择云服务时,响应时间、吞吐量等QoS(服务质量)指标至关重要。然而,由于用户评价缺失、服务商数据不全等问题,超过60%的云服务存在QoS数据缺失,导致企业难以精准选择合适服务。近日,天津大学与美国Old Dominion大学联合团队提出一种融合多源特征的两阶段学习算法(MFTL),在国际权威期刊《Frontiers of Engineering Management》发表。该算法将QoS预测误差降低15%,尤其在数据稀疏场景下表现突出,为云服务智能选择提供新方案。

数据稀疏成行业痛点:传统方法"看天吃饭"
云服务QoS预测如同"盲人摸象"——用户调用记录分散、新用户/新服务缺乏历史数据(冷启动问题),导致传统预测方法准确率大幅下降。例如,当用户仅调用过5%的服务时,基于协同过滤的预测误差会飙升30%以上。天津大学陈福赞教授团队指出,这一问题的核心在于"单一数据源"和"线性依赖":传统模型要么只依赖用户历史调用记录,要么无法捕捉用户与服务间的复杂非线性关系。

"就像推荐电影时只看观影记录,却忽略用户所在地区、设备类型等关键信息。"团队成员解释道。此前,矩阵分解方法虽能提取用户-服务潜在特征,但难以融入地理位置等多源信息;深度学习模型擅长非线性拟合,却在数据稀疏时"巧妇难为无米之炊"。

MFTL两阶段学习:先"筛选邻居"再"深度校准"
MFTL算法创新性地将"邻居筛选+深度强化"结合,构建双重校准机制。第一阶段,算法像"智能猎头"一样筛选高相似用户:不仅比较历史调用记录(如响应时间分布),还结合地理位置(如同一国家或自治系统),确保选出的"邻居"真正具有参考价值。"比如北京用户和天津用户调用同一云服务,网络延迟可能更接近,这比随机选邻居靠谱得多。"

随后,通过邻居集成矩阵分解(NIMF)将用户-服务交互数据拆解为低维特征向量,捕捉线性关系。第二阶段,深度学习模型登场:将矩阵分解得到的特征向量与用户-服务交互的高阶特征(如元素乘积)输入神经网络,像"显微镜"一样挖掘隐藏模式。这种组合既解决了数据稀疏问题,又突破了线性模型的局限。

实验验证:误差降低15%,稀疏数据预测更稳
在包含339个用户、5825项服务的WS-Dream数据集上,MFTL与9种主流方法展开较量。结果显示:在数据稀疏度95%(仅5%调用记录)时,MFTL的MAE(平均绝对误差)为0.410,较传统矩阵分解方法降低15%;RMSE(均方根误差)1.149,优于所有对比算法。更重要的是,当数据密度从5%提升至20%,MFTL的预测稳定性显著优于其他模型,误差波动小于3%。

"这意味着即使在新用户、新服务场景下,MFTL仍能保持较高预测精度。"团队强调。例如,某企业首次使用云存储服务,MFTL可结合同地区企业的使用数据,准确预测其响应时间,帮助企业避免因服务卡顿造成的损失。

未来方向:融入时间序列,迈向动态预测
目前,MFTL已能处理用户地理位置、历史调用等多源特征,但尚未考虑QoS的时间动态性(如高峰期延迟波动)。团队计划下一步整合时间序列数据,开发实时更新的预测模型。论文第一作者杨静博士表示:"未来云服务就像智能导航,不仅告诉你哪条路最快,还能实时避开拥堵。"

该研究为云服务推荐、资源调度提供了技术支撑。专家认为,这种多源特征融合的两阶段学习框架,有望在推荐系统、网络优化等领域进一步推广应用。

来源: 相关成果已发表于《Frontiers o