你知道吗?光缆是通信网络的“血管”,但生产中光纤分配就像“搭积木”——要选对长度、颜色、库存时间的光纤,才能既省材料又高效。可人工分配慢且易出错,传统算法在复杂订单下总“掉链子”。近日,我国武汉科技大学、华东师范大学等团队联合提出D3QNTF智能光纤分配模型,用深度强化学习解决了这个难题,相关成果发表在《Frontiers in Engineering Management》。

光缆生产的“卡脖子”难题

光缆生产中,光纤分配需考虑长度、颜色、库存时间等多因素:太长的光纤会浪费,库存久的光纤要优先用,彩色光纤和回收光纤有特定优先级。传统方法如贪心算法(只看眼前最优)、遗传算法(靠“进化”找方案),要么陷入局部最优,要么参数敏感,在多订单场景下(比如同时生产3种不同长度的光缆)效率骤降——分段光纤变多、分配次数增加,直接拉高成本。

AI模型来解围:D3QNTF是什么?

D3QNTF是基于深度强化学习(让AI通过不断尝试反馈,学会最优决策,像小孩学走路摔多了就会站稳)的改进模型,核心有三个“聪明设计”:

  1. 双函数判断:把决策拆成“状态价值”(当前库存好不好)和“动作优势”(选这个光纤有多划算),避免AI高估某个动作的价值,决策更稳;
  2. 随机初始化可行解:一开始就给AI“正确的练习样本”,不用盲目试错,学习更快;
  3. 惩罚非法动作:比如选超过库存最大长度的光纤会被扣分,让AI更谨慎,减少错误。

简单说,这个模型就像给工厂配了个“智能调度员”,能自动平衡效率、成本和库存质量。

实验见真章:比传统算法强在哪?

团队用真实工厂数据测试,对比贪心算法、DQN(深度Q网络,像AI的“决策表”)、D3QN(决斗式双深度Q网络)等算法,结果很亮眼:

  • 在复杂订单场景(如同时生产320、520、7*20三种长度的光缆),D3QNTF的**库存分数提升0.43%**(库存质量更好),**分段光纤减少26.67%**(节省材料),分配次数更合理
  • 和DQN相比,它的收敛更稳定,回报值更高,不会中途“掉链子”。

这些数据意味着工厂能减少浪费、提升生产效率,直接降低成本。

未来可期,但仍有挑战

不过模型也有局限:目前只处理固定配置订单,面对多样化客户需求(比如临时加单、改规格)还需优化;还需要更多实际工厂数据验证通用性。未来团队计划扩展到多订单场景,让模型更“万能”。

来源: 工程管理前沿