世纪中文出版社

1 引言

压水堆核电厂在投入运行之后，每过一段时间需要停堆换料以满足反应堆运行需要。而换料设计中最复杂的一项设计内容便是换料堆芯装载方案的设计，装载方案的性能将会直接影响核电厂的经济性和安全性。目前国内各核电机组的换料设计仍采用的人工搜索得到局部最优的方案，但随着国内核电机组不断增加，换料设计给设计工程师带来沉重的负担，亟需开发高效智能的堆芯换料设计方法，在更短时间内给出更优质的换料装载方案。

2006年以来，以深度学习为代表的第三次人工智能浪潮兴起，在各行各业中涌现了大量的人工智能与工业制造结合的范例。人工智能以其天然的自学习、自适应能力、计算并行性和存储的分布性，为处理大规模非线性问题提供了可靠手段。

本文广泛调研国内外相关研究现状，总结当前关于组合优化问题各类研究方法的主要优缺点，同时跟踪最新的智能化优化算法发展前沿，给出未来换料设计智能化发展的思考。

2 典型组合优化问题的机器学习算法

TSP问题（路径规划问题）是国际上公认的组合优化问题，国内外针对该问题开展了广泛的算法设计的研究，主要包括Hopfiled网络、指针网络、学习最优化方法、图神经网络等，接下来分别介绍。

2.1 Hopfiled网络

Hopfield在1985年提出采用Hopfield网络求解TSP问题^[1]，并取得很大成功。作者将TSP目标函数转化成Hopfield网络的能量函数，并通过迭代使得能量函数最低。另外，作者还引入拉格朗日惩罚因子，当问题约束条件被破坏时，能量函数附加一项惩罚项。然而，该方法存在如下缺点：对超参数和初始化方法很敏感。为了改进该缺点，Durbin提出了一种弹性网^[2]，以改进算法性能。Fort提出自组织映射求解TSP^[3]。尽管这些算法可成功求解TSP问题，但其性能仍不如启发式算法。

2.2 指针网络

由于序列-序列的神经网络算法出现使得神经网络再度应用到各种优化领域中，比较突出的序列-序列网络有指针网络^[4]。指针网络是由Vinyals等人于2015年提出，并用于求解TSP问题。指针网络相比其他序列-序列网络有如下优点：支持任意长度的序列输入，这一点是传统的序列-序列网络所不具备的。在Vinyals的论文中，指针网络参数训练需要一组已知最优解的训练样本集（即监督学习），然后以似然函数最大化作为优化目标。

图1 指针网络预测结果

*:PTR-Net为指针网络。“m”表示训练样本集中点的数目范围。“n”表示测试算例的点数目。

在Vinyals所采用的超参数如下：LSTM的隐藏单位数目为128或256，采用SGD算法，学习率为1.0，初始化权重由[-0.08,0.08]均匀采样得到。训练样本集数目为1百万，批大小为128。迭代的epochs数目为10-20。从上面可以看到，指针网络的训练样本数目很大，但网络预测效果较好。图1给出了20个点的TSP预测结果。然而文中的结果也表明随着n数目增加，指针网络的性能也逐渐变差。

2.3 学习最优化

郭田德等人提出了学习最优化的概念^[5]，即从数据中学习，这正是机器学习的思想。传统的数值最优化方法通常只适用于连续问题的优化。而深度学习具有非常强的表示能力，因此未来的学习最优化趋势应该是基于深度学习的机器学习方法。学习最优化的另外一个突出特点是，一个训练好的模型往往适用于一类问题，而不是一个特定的问题。传统的方法或进化算法都是针对特定问题的，输入稍微改变，算法就得从头开始。而学习最优化或机器学习方法则能适用于一类问题的求解，例如上面提到的方法。郭田德等人针对现有神经网络求解组合优化问题，归纳出一般性特点，见图2。图2的左半部分是序列-序列的机器求解方法，而右半部分是基于指针网络（又译作指向型网络）的算法。而基于指针网络的算法也分为两类：基于目标函数和基于强化学习。

图2 机器学习求解组合优化问题

2.4 图神经网络

图神经网络(Graph neural network，GNN)是近年来提出的能够有效处理图结构数据的新方法，因此部分学者研究如何利用图神经网络对组合优化问题进行建模，其核心思想是根据每个节点的原始信息(如城市坐标)和各个节点之间的关系 (如城市之间的距离)，利用图神经网络方法计算得到各个节点的特征向量，根据各个节点的特征向量进行节点预测、边预测等任务。

Dai等^[6]首次结合图神经网络和深度强化学习方法对MVC、TSP等组合优化问题进行了研究，作者利用图神经网络对各个“待选节点”的Q值进行估计，每次根据Q值利用贪婪策略向当前解插入一个新节点，直到构造一个完整的解。

Dai等采用structure2vec图神经网络对当前解的图结构进行建模，并根据图神经网络计算剩余可选节点中各个节点的Q值，随后基于贪婪策略根据Q值选择一个新的节点添加到当前解中，直至得到完整解。作者采用了深度Q学习(DeepQ-learning，DQN)算法对该图神经网络的参数进行训练，以使模型输出准确的Q值估计。Dai提出的图神经网络算法在TSP问题上效果与指针网络的效果相当，而MVC、MAXCUT 问题上得到了接近最优解的优化效果，且超越了多个基准算法。

3 核反应堆领域组合优化应用

Majdi I.Radaideh等人^[7-8]提出了两种基于结合深度强化学习、工程师经验的优化方法用于求解燃料组合优化问题。这两种方法的基本出发点均是：基于工程师经验对BWR 燃料优化提出四个约束规则以缩小搜索空间，并提高可行解的质量。这四个约束规则与求解器无关，采用深度强化学习算法（如双深度Q-learnging算法或近端策略算法PPO等）训练，使得强化学习算法可以给出满足这四个规则的可行解。这一阶段是预处理阶段，后续是优化阶段。这两种方法的差异在于优化阶段。第一种方法采用启发式算法，如遗传算法，第二种方法采用深度强化算法。图6是BWR组件测试结果，可以看出深度强化学习的测试效率略高于启发式算法。另外，作者文中的结果表明：采用预处理阶段后的两种算法的探索效率和探索能力都远远高于无预处理阶段的算法（强化算法或启发式算法）。

图6 不同算法在BWR 6X6优化上的测试结果（其中DQN和PPO是深度强化学习算法）

4 结论

本文通过广泛调研国内外组合优化领域的智能化方法和核反应堆领域的研究进展，得到以下主要结论：

1、深度强化学习的出现给组合优化问题带来了新的解决方案，并具有不错的表现，其中两类方法表现突出：基于指针网络的深度强化学习算法和基于图神经网络的深度强化学习算法。相对于传统优化算法，该类方法无需搜索直接输出问题解，具有求解速度快的优势；且模型一旦训练完成，可以对具有相同分布特性的所有问题实例进行求解，而不需要重新进行训练，模型具有很强的泛化能力。但是该类方法在中大规模问题上与专业组合优化求解器的优化能力还存在一定差距。

2、采用强化学习与启发式算法的结合方法在BWR燃料组件优化上开展了研究。随着人工智能技术的发展，通过神经网络模型代替手工规则设计是未来的发展趋势。利用深度强化学习，自主学习并提炼出问题的内在规则，再利用启发式算法迭代优化对于未来换料堆芯装载方案的优化设计可提供有效指导。

参考文献：

[1] John J. Hopfield and David W. Tank. ”Neural” computation of decisions in optimization problems. Biological Cybernetics, 52(3):141–152, 1985.

[2] Richard Durbin. An analogue approach to the Travelling Salesman. Nature, 326:16, 1987.

[3] J. C. Fort. Solving a combinatorial problem via self-organizing process: an application of the Kohonen algorithm to the traveling salesman problem. Biological Cybernetics, 59(1):33–40, 1988.

[4] Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. Pointer networks. In Advances in Neural Information Processing Systems, pp. 2692–2700, 2015b.

[5] 郭田德, 韩丛英. 从数值最优化方法到学习最优化方法[J]. 运筹学学报, 2019, 23(4).

[6] Dai H J, Khalil E B, Zhang Y Y, Dilkina B, Song L. Learning combinatorial optimization algorithms over graphs. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA: Curran Associates Inc., 2017. 6351−6361.

[7] Radaideh M I , Wolverton I , Joseph J , et al. Physics-informed reinforcement learning optimization of nuclear assembly design[J]. Nuclear Engineering and Design, 2020:110966.

[8] Radaideh M I , Shirvan K . Rule-based reinforcement learning methodology to inform evolutionary algorithms for constrained optimization of engineering applications[J]. Knowledge-Based Systems, 2021(2):106836.

作者简介：

曲勇（1976-），男，大学本科，1998年毕业于西安交通大学，获工学学士学位，现主要从事核电站设计管理工作。