Fund Project:Project supported by the National Natural Science Foundation of China (Grant No. 11934002), the National Basic Research Program of China (Grant No. 2017YFA0304204), and the Shanghai Municipal Science and Technology Major Project, China (Grant No. 2019SHZDZX01)
Received Date:01 May 2021
Accepted Date:13 June 2021
Available Online:10 July 2021
Published Online:20 July 2021
Abstract:Quantum computing has made dramatic progress in the last decade. The quantum platforms including superconducting qubits, photonic devices, and atomic ensembles, have all reached a new era, with unprecedented quantum control capability developed. Quantum computation advantage over classical computers has been reported on certain computation tasks. A promising computing protocol of using the computation power in these controllable quantum devices is implemented through quantum adiabatic computing, where quantum algorithm design plays an essential role in fully using the quantum advantage. Here in this paper, we review recent developments in using machine learning approach to design the quantum adiabatic algorithm. Its applications to 3-SAT problems, and also the Grover search problems are discussed. Keywords:adiabatic quantum computation/ quantum algorithm/ quantum simulation/ machine learning
4.强化学习在绝热量子算法设计中的应用本文第2节谈到绝热量子计算的定义, 了解到为了避免出现从基态向激发态的跃迁 (Landau–Zener transition)[168,169], 原则上需要给系统很长的演化时间. 在绝热量子计算中, 人们通过解析局部优化哈密顿量演化路径, 使系统在最小能隙处降低演化速率来保证不发生跃迁, 并实现了Grover搜索问题的平方加速[66]. 必须要指出的是, 想要在复杂的量子多体系统中做到对整个能谱的全局认知本身就非常困难. 所以对于复杂量子多体体系, 很难解析地知道这些最小能隙的位置来局域地优化哈密顿量演化路径[170–172]. 而在经典及量子最优化控制部分的介绍中, 我们已经谈到可以尝试将复杂的物理系统看作黑箱, 利用机器学习来获取最优化的控制. 本节将具体介绍我们利用强化学习辅助设计绝热量子算法的一个工作[173]. 从前文的介绍中了解到绝热量子计算的表现与演化路径密切相关. 在接下来的内容中, 所说的绝热量子算法的设计就对应于绝热演化的路径设计. 我们在第2节中介绍了几个计算问题的哈密顿量编码方式. 而对于给定一个计算问题, 总有不同的问题实例. 如在Grover搜索问题中对不同的目标态的搜索以及在3-SAT问题中不同子句的选择, 这都会使不同问题实例具有不同的答案. 绝热算法设计或者说哈密顿量演化路径设计不能依赖于具体的某一个问题实例. 这也就有别于对具体目标量子态制备[45]以及实现快速的量子门操作[174,155,43], 如何学习并自动化设计绝热量子计算中哈密顿量演化路径以使得计算过程体现出量子优势就是一个量子算法设计问题[173,175,176]. 对此, 我们构造了自动化绝热量子算法设计框架, 如图1. 这一框架特别适合对那些很难被求解但容易被验证的问题进行绝热算法设计, 如Grover搜索问题、质因数分解问题、3-SAT问题等等. 在该框架中, 我们参数化哈密顿量演化路径为: 图 1 强化学习辅助绝热量子算法设计的示意图[173]. 其中强化学习中的智能体(agent)根据绝热量子计算(AQC)输出的结果来获取奖励, 并根据深度神经网络近似表示的Q值表格来选择动作更新绝热量子算法 Figure1. Schematic diagram of the reinforcement learning approach for quantum adiabatic algorithm design[173]. The learning agent collects the reward according to the result obtained from adiabatic quantum computing (AQC) and produces an action to update the quantum adiabatic algorithm based on its Q table represented by a deep neural network.
其中C为截断阶数. 当C趋于无穷时, 这样的参数化形式就是完备的. 强化学习中智能体(agent)的状态s为需要设计的哈密顿量演化路径中的全部参数$ b_m $, 称作“路径态”(path state). 智能体的动作a是对路径态中参数$ b_m $的操作, 其根据绝热量子计算机的输出结果对错来获得不同奖励r, 即答案正确奖励为1, 答案错误奖励为0. 强化学习的目标是最大化奖励, 所以通过让智能体从线性路径开始对路径参数进行调整, 也就能优化设计出好的绝热量子算法. 这样的框架就非常适合在D-wave机器[177]中应用. 值得一提的是, 在训练智能体的时候, 将同一系统规模的大量问题实例一起输入并对最后的表现进行平均, 这样的处理能够让算法设计更为鲁棒. 智能体中深度神经网络近似地表示Q值表格, 并用其来估计当前状态下选择不同动作的未来累积奖励. 在例如围棋游戏中, 智能体的动作是离散的. 而这里通过类似模拟退火的方式连续化了强化学习智能体的动作, 实现了自动化设计具有量子加速的绝热量子Grover搜索算法. 其中固定系统总的演化时间T与系统规模n的关系为$ T = \sqrt{2^n} $. 人们解析地得到了基于第2节中介绍的Grover搜索算法哈密顿量编码方式下的具有量子加速的绝热算法[66]. 在这一演化时间内, 线性的演化路径会大概率以失败告终. 而利用强化学习自动化绝热量子算法设计框架获得的算法, 其可以在这一演化时间内到达与解析获得的算法[66]相当的结果(成功概率99.9% 以上), 在过程中甚至有超越解析算法[66]的表现, 如图2. 通过对系统的能谱以及强化学习得到的路径进行观察, 发现演化路径在能隙最小处变化得最缓慢, 出现了平台[173]. 这个重要特征与解析结果[66]是一致的. 图 2 强化学习辅助设计的绝热量子算法在Grover搜索问题上的表现[173]. 其中成功概率(success probability)是演化终态与目标态交叠的平方, 总的演化时间T与系统规模n的关系为$ T = \sqrt{2^n}$. 图中蓝色虚线表示的线性演化路径成功概率会随着系统尺寸增大不断降低. 红色实线和黑色虚线分别表示强化学习设计得到的演化路径和解析获得的非线性路径[66]的表现. 在选择的演化时间下, 两者的成功概率都能接近于1, 说明两者都具有平方的量子加速 Figure2. Performance of reinforcement learning designed quantum adiabatic algorithm in success probability for Grover search problem[173]. The success probability is obtained by taking the square of wave-function overlap of the final evolved quantum state with the target state. The total adiabatic evolution time is chosen as $ T = \sqrt{2^n}$ where n is the system size. The blue dashed line denotes the success probability of linear path which decreases as increasing the system size. The red solid line and black dashed line denote the performance of the reinforcement learning designed path and the nonlinear path[66], respectively. Given the choice of total evolution time, the success probability close to 1 by both implies that they both exhibit quadratic quantum speed up.
我们测试了强化学习在量子比特数量拓展过程中的表现, 如图3. 其中线性演化路径的结果非保真度(infidelity)增长得很快, 说明其计算表现能力不佳(前文中提到其被证明没有量子加速). 我们测试了将在10 qubits系统强化学习得到的路径直接用到11—16 qubits上, 发现虽然保真度会有下降但这也会比直接用线性路径更好. 而如果将在i qubits系统中强化学习得到的路径用到$ i+1 $ qubits系统并计算其非保真度. 这样拓展具有远超线性路径的表现能力, 其结果的非保真度都接近于1%. 对于另一种实验友好的编码方式, 即如果将初始哈密顿量写成$H_{\rm{b}} = \dfrac12 \displaystyle\sum\nolimits_i[\mathbb{1}-\sigma_i^x]$, 解析的方法[66]无法得到最优的演化路径, 而基于强化学习的方式依旧可以获得这一具有平方加速的量子算法[173]. 图 3 强化学习在Grover搜索问题的绝热量子算法设计中的拓展性[173]. 其中绿线是线性路径的表现, 蓝线是将10 qubits系统中强化学习学到的路径推广到更大系统, 橘线是将在n qubits系统强化学习获得的路径推广到$ n+1$qubits系统 Figure3. Transferability of reinforcement learning based quantum adiabatic algorithm design for Grover search problem[173]. The green line denotes the infidelity of linear path. The blue line denotes the infidelity of the path obtained by training the 10 qubits system. The orange line denotes the performance of applying the path learned from the n qubits system to the $ n+1$ qubits system.