当企业选择云服务时,响应时间、吞吐量等QoS(服务质量)指标如同“盲盒”——超过60%的服务因用户评价缺失、数据稀疏,导致企业难以判断实际性能。近日,天津大学与美国Old Dominion大学联合团队提出的MFTL算法,通过“找邻居+深度校准”两阶段学习策略,将QoS预测误差降低15%,尤其在数据稀疏场景下表现突出。相关成果发表于《Frontiers of Engineering Management》,为云服务智能选择提供新范式。
云服务选择困境:数据稀疏成“隐形门槛”
在云计算生态中,用户与服务的交互数据往往高度分散:某企业可能仅使用过5%的云服务,新用户甚至没有任何历史记录(冷启动问题)。传统预测方法如同“管中窥豹”:基于协同过滤的模型依赖相似用户数据,却在数据稀疏时误差飙升30%;深度学习模型擅长捕捉复杂关系,却在“数据荒漠”中难以训练。
“就像用一张残缺的地图导航,传统方法要么绕远路,要么直接迷路。”研究团队指出,QoS预测需同时解决两大难题:如何在数据不足时找到可靠参考(用户相似性),以及如何挖掘用户与服务间的隐藏关联(非线性交互)。
MFTL双阶段策略:先“筛选邻居”再“深度解码”
针对这一痛点,MFTL算法构建了“粗粒度筛选+精细化校准”的两阶段框架。第一阶段如同“智能猎头”筛选高价值邻居:不仅对比历史调用记录(如响应时间分布),还结合地理位置(如同一国家或自治系统)。例如,北京用户与天津用户调用同一云服务时,网络延迟更接近,这种“地域相似性”可大幅提升参考价值。
随后,通过邻居集成矩阵分解(NIMF)将用户-服务交互数据拆解为低维特征向量,捕捉线性关系——相当于将复杂的服务调用记录“压缩”成简洁的用户画像与服务标签。第二阶段,深度学习模型登场:将矩阵分解结果与用户-服务高阶交互特征(如元素乘积)输入神经网络,像“显微镜”般挖掘隐藏模式。这种组合既解决了数据稀疏问题,又突破了线性模型的局限。
实验验证:稀疏数据下误差降低15%,稳定性领先
在包含339个用户、5825项服务的WS-Dream数据集上,MFTL与9种主流方法展开较量。结果显示:在数据稀疏度95%(仅5%调用记录)时,MFTL的MAE(平均绝对误差)为0.410,较传统矩阵分解方法降低15%;RMSE(均方根误差)1.149,优于所有对比算法。更关键的是,当数据密度从5%提升至20%,MFTL的预测稳定性显著优于其他模型,误差波动小于3%。
“这意味着即使面对新用户、新服务,MFTL仍能保持高精度预测。”团队举例,某初创公司首次使用云数据库服务,MFTL可结合同地区企业的使用数据,提前预判其响应时间,帮助企业避免因服务卡顿造成的业务损失。
未来展望:从静态预测到动态“交通导航”
目前,MFTL已整合用户地理位置、历史调用等多源特征,但尚未考虑QoS的时间动态性(如高峰期延迟波动)。团队计划下一步融入时间序列数据,开发实时更新的预测模型。论文通讯作者吴 Harris 教授表示:“未来云服务推荐将像智能导航,不仅告诉你哪条路最快,还能实时避开拥堵。”
该研究为云服务推荐、资源调度提供了技术支撑。专家认为,这种多源特征融合的两阶段学习框架,有望在边缘计算、物联网等领域推广应用,推动我国云计算智能化升级。
来源: 工程管理前沿