基于离线强化学习对热风炉燃烧过程设备参数的最优控制的探索

发布时间:2025-12-15浏览次数:10

2024年10月-2025年8月,上海财经大学与科大智能物联技术股份有限公司合作,针对高炉热风炉燃烧过程的优化控制问题,系统地探索了基于离线强化学习(Offline RL)的设备参数最优控制方法。研究旨在优化拱顶温度与烟道温度曲线,在送风末温不低于1200℃的约束下,最小化单位热风的煤气消耗指标(煤气消耗量×热值/(冷风流量×送风温度))。

项目构建了完整的约束马尔可夫决策过程(Constrained MDP)框架,明确定义了状态(燃烧室温度、烟道温度)、动作(煤气与空气阀门开度)、状态转移、奖励函数(负的煤气消耗)及约束条件。采用Model-based离线RL方法(如COMBO算法),结合随机采样与模仿学习进行数据扩展,利用历史数据训练动态模型,缓解分布偏移。通过向量误差修正模型(VECM)分析验证了燃烧期煤气流量与温度变化的协整关系,并利用神经网络将工业约束(末温≥1200℃)转换为可学习的模型约束。

实证分析基于企业提供的2024年9-10月七组炉子秒级燃烧数据展开,通过设计约束满足与奖励最大化目标协同优化的机制,有效处理了finite-horizon约束满足问题,提升了策略的实用性与鲁棒性。结果表明,相比传统PID控制,离线RL减少了人工干预,提升了操作一致性,预计可降低燃料消耗5%-15%。

该工作不仅验证了离线RL在复杂工业过程控制中的可行性与有效性,为高炉热风炉的智能化、节能化运行提供了可复制的技术框架,也为钢铁行业乃至其他流程工业的数字化转型与碳中和目标实现提供了重要参考。未来可进一步探索在线学习、迁移学习及与CFD模拟的深度融合,最终推动钢铁工业的数字化转型与可持续发展。