量子生成模型

全文HTML

--> --> -->

2.量子生成模型

2.1.量子生成对抗网络

-->

2.1.量子生成对抗网络

经典的生成对抗网络^[23](generative adversarial Network, GAN)被视为深度学习中的前沿进展. GAN在生成图像^[1]、语音^[2]、文本^[24]等方面具有非常广泛的应用. 经典生成对抗网络是一类有两个玩家的博弈游戏, 一个是生成器(generator), 记为G, 另一个为鉴别器(discriminator), 记为D. 对于已存在的源数据$\vec{x}\sim p_{{\rm{data}}}$

, 生成器G生成新的数据以逼近真实的源数据分布, 使D无法区分数据的来源; 而鉴别器D对每个输入数据给出真或假的决策概率, 以最大程度地区分这两类数据.
如果G产生的数据足够逼近目标数据, D无论对于何种输入数据, 都有50%的几率误判, 这时生成对抗网络就达到了Nash平衡点. 设真实的源数据标签为1, 由G产生的数据标签为0, D输出$ (0, 1) $

间的概率值, 那么生成对抗网络的损失函数可以被定义为:

$ \begin{split}&{\cal{L}}(D,G) = {\mathbb{E}}_{{{{x}}}\sim p_{{\rm{data}}}}[\log D_{{{{\theta}}}_{\rm{D}}}({{{x}}})]\\&+{\mathbb{E}}_{{{{z}}}\sim p({{{z}}})}[\log (1-D_{{{{\theta}}}_{\rm{D}}}(G_{{{{\theta}}}_{\rm{G}}}({{{z}}}))].\end{split}$

生成对抗网络的训练策略是, 更新其中一方的参数时, 另一方的参数保持不变. 对于上述的损失函数模型, 优化任务为$\min_{{{{\theta}}}_{\rm{G}}}\max_{{{{\theta}}}_{\rm{D}}}{\cal{L}}(D, G)$

. 采用经典神经网络构建的GAN模型, 可以用反向传播算法来实现梯度计算.
量子的生成对抗网络^[5,21,25,26](quantum GAN, QGAN)基本保留了经典生成对抗模型的特征, 不同之处在于量子生成对抗网络用到的数据集既可以是量子的也可以是经典的, 而且可选择地, 生成器与鉴别器也可以为经典神经网络或参数量子线路.
对于数据是量子的, 生成器与鉴别器也都是量子的情况, Dallaire-Demers等^[5]提出了这样的QGAN模型: 源数据的概率分布模型为$ p_R(x) $

, 由某个未知(有可能很复杂)的过程R生成. 由参数${{{\theta}}}_{\rm{G}}$

确定的生成器G生成新的数据样本, 由参数${{{\theta}}}_{\rm{D}}$

确定的鉴别器D识别这两类数据. 用标签λ指定源数据中的类别, $ R = R({\left| \lambda \right\rangle }) = \rho_\lambda^R $

, 考虑噪声$ {\left| z \right\rangle } $

, 可以按照(1)式定义与参数有关的损失函数${\cal{L}}({{{\theta}}}_{\rm{D}}, $

$ {{{\theta}}}_{\rm{G}})$

, 这里D的输入是$ R({\left| \lambda \right\rangle }) $

或$G({{{\theta}}}_{\rm{G}}, {\left| \lambda, z \right\rangle }) )$

$\begin{split} {\cal{L}}({{{\theta}}}_{\rm{D}},{{{\theta}}}_{\rm{G}}) =\;& \frac{1}{2}+\frac{1}{2\varLambda}\sum\limits_{\lambda = 1}^{\Lambda} [\cos^2(\phi) {\rm{tr}}(Z\rho_{\lambda}^{DR}({{{\theta}}}_{\rm{D}})) \\&-\sin^2(\phi){\rm{tr}}(Z\rho_{\lambda}^{DG}({{{\theta}} }_{\rm{D}},{{{\theta}} }_{\rm{G}},z))], \end{split}$

其中含?的项是调整源数据和生成部分占整体的比例. 一般取$\phi = \dfrac{\pi}{4}$

. Dallaire-Demers等构建的量子生成对抗网络线路图如图1所示.

图 1 量子生成对抗网络结构^[5]
Figure1. The general structure of QGAN^[5].

量子生成对抗网络的任务就是通过参数优化来实现$\min_{{{{\theta}}}_{\rm{G}}}\max_{{{{\theta}}}_{\rm{D}}}{\cal{L}}({{{\theta}}}_{\rm{D}}, {{{\theta}}}_{\rm{G}})$

, 从而得到最接近于源数据概率分布的分布模型与鉴别模型. 量子线路的梯度可以用数值差分^[27]、参数位移法则^[27]、以及Hadamard test线路^[5]来求. Dallaire-Demers在数值模拟上实现了源数据为$ {\left| 0 \right\rangle }, {\left| 1 \right\rangle } $

两个量子态的生成对抗任务.
Lloyd等^[6]讨论了当数据是量子的, 鉴别器是量子或经典的, 生成器是经典的量子生成对抗模型. Lloyd所述的量子数据是通过对一个量子体系进行固定的测量得到的数据分布. 根据量子优越性^[19]的表述, 经典的生成器不能有效地匹配量子数据分布, 或者更准确地, 除非有指数的资源可用, 经典的生成器无法模拟量子数据的分布$p_{\rm{R}}(x)$

. 对于数据是经典的, 生成器和鉴别器都是量子的情况, Lloyd通过对比得出, 经典的生成器和鉴别器在计算梯度时需要$ O(N^2) $

个比特和$ O(N^2) $

步时间(N是经典数据的维度), 而量子的生成器和鉴别器在计算协方差矩阵时, 如果矩阵是低秩和稀疏的, 需要$O({\rm{log}}N)$

个量子比特和$O({\rm{poly}}({\rm{log}}N))$

个逻辑门操作.
Zeng等^[26]结合量子玻恩机构建了经典数据-量子生成器-经典鉴别器的量子生成对抗模型, 实现条带图(bars and stripes, BAS)^[8,16,26,28]的概率生成与识别(见第2节). 类似的, Situ等^[29]将BAS图的每个点都编码至量子比特上, 通过参数量子线路构建的生成器生成量子态, 测量结果输入至经典神经网络构建的鉴别器, 也实现了BAS图的生成. Zouful等^[25]通过测量量子态在计算基上的投影, 将其转化为数据对应的概率, 以此为基础构建生成对抗网络, 实现了对数正态分布、双峰高斯分布等概率分布的学习和生成. 值得注意的是, 连续数据被截断并舍入到临近整数值, 所以该模型仍是离散数据的概率学习模型.
随着量子硬件操控水平的提高, 在量子芯片上实现量子生成对抗网络已经有相关的工作. Hu^[30]等利用超导量子体系首次实现了具有量子数据、量子生成器、量子鉴别器的量子生成对抗网络的实验验证, 生成保真度高达98.8%. 在Hu的实验中, 量子数据为单比特量子态, 生成器参数为量子门旋转角度. 在优化D或G时采用梯度下降算法, 量子系统的操控和测量通过FPGA(field programmable gate arrays)实现, 线路梯度通过经典计算机估算得到. 该实验对于NISQ体系下的量子机器学习优势的探索具有重要意义. 此外, Huang等^[21]通过将测量量子生成器得到的数据作为经典图像灰度值, 完成了手写数字集0和1的生成对抗任务, 为量子比特资源受限条件下经典数据的生成提供了一个思路.
2

2.2.量子玻恩机

-->

2.2.量子玻恩机

量子玻恩机^[7,8](quantum circuit Born machine, QCBM)是基于波函数的概率解释的一种模型. 量子玻恩机将概率分布编码至初态上, 把量子态在计算基上的投影作为数据的概率. 量子玻恩机是一种隐式的生成模型, 因为我们实际上并不需要知道这个纯态的密度矩阵, 而只需要知道叠加态振幅的模值. 这样的设定对量子线路的结构限制也更少, 所以一般被认为具有更强的表示能力.
对目标概率分布$ \pi(x) $

进行采样得到数据集$ {\cal{D}} = \{x\} $

, QCBM通过参数量子线路把初态$ {\left| 0 \right\rangle } $

演化为$ {\left| \psi_\theta \right\rangle } $

, 并在计算基上的测量得到生成数据$x\sim $

$ p_\theta(x) = |{\left\langle {x|{\psi _\theta }} \right\rangle }|^2$

的概率分布. 训练目标是让模型的概率分布$ p_{\theta} $

接近真实数据分布$ \pi(x) $

. QCBM采用所谓的MMD(Maximum Mean Discrepancy)损失函数:

$ {\cal{L}} = \left\|\sum\limits_x p_\theta (x)\phi(x)-\sum\limits_x \pi(x) \phi(x)\right\|^2, $

其中?将x映射到高维Hilbert空间. 进一步地, 定义核函数$K(x, y) = \phi(x)^{\rm{T}} \phi(y)$

, (3)式即可避免在高维空间中进行运算, 等价于

$\begin{split}{\cal{L}} =\;& \underset{x\sim p_\theta,y\sim p_\theta}{{\mathbb{E}}}[K(x,y)]-2\underset{x\sim p_\theta,y\sim \pi}{{\mathbb{E}}}[K(x,y)]\\&+\underset{x\sim \pi,y\sim \pi}{{\mathbb{E}}}[K(x,y)]. \end{split}$

核函数可以取为高斯形式: $K(x, y) = $

$ \exp\left( { - \dfrac{1}{{2\sigma }}|x - y{|^2}} \right)$

. 直接计算上述损失函数的梯度比较困难, 但可以证明, 下式无偏地等价于梯度:

$\begin{split}\frac{\partial {\cal{L}}}{\partial \theta_l^\alpha} = \;&\underset{x\sim p_{\theta^+},y\sim p_\theta}{{\mathbb{E}}}[K(x,y)]-\underset{x\sim p_{\theta^-},y\sim p_\theta}{{\mathbb{E}}}[K(x,y)]\\&-\underset{x\sim p_{\theta^+},y\sim \pi}{{\mathbb{E}}}[K(x,y)]+\underset{x\sim p_{\theta^-},y\sim \pi}{{\mathbb{E}}}[K(x,y)], \end{split}$

其中$ p_{\theta^+}(x) $

和$ p_{\theta^-}(x) $

是在参数$\theta^{\pm} = \theta\pm \dfrac{\pi}{2}{{{e}}}_l^\alpha$

下的模型输出概率, ${{{e}}}_l^\alpha$

是参数空间的第$ (l, \alpha) $

个单位矢量($ \alpha $

和l分别表示迭代的步数与当前迭代的第l个参数的下标).
对所有量子比特进行测量, 会得到计算基上的概率分布. 源数据被映射为经典的比特流数据, 与量子态的计算基一一对应. 这种映射是一种同构, 源数据空间和映射空间一样大, 因此数据集的数据必须是有限的. 对于N个数据的集合, 需要$n\sim $

$ O({\rm{log}}(N))$

个量子比特. 而生成线路中所用的量子门个数一般为$O({\rm{poly}}(n))$

.
量子玻恩机是一种隐式生成模型, 模型本身并不涉及经典数据的特征维度, 甚至不涉及数据本身的形态. 在量子体系中不需要考虑数据的原本面貌是什么. 无论是图片、数字还是文字, 都会被编码为经典比特流数据. 一旦数据同构的方式确定了, 基于量子线路的优化体系就与原本的数据形态无关了.
利用量子玻恩机进行概率分布的学习和生成在条带图(bars and stripes, BAS)^[8,16,26,28]任务中取得很好的结果, 对于理想的无误差测量, 量子玻恩机生成真实数据分布的比率为95.7%^[8]. 此外通过对量子玻恩机的非计算基测量, 可以得到更多的信息, 这种方法可用来生成先验概率分布, 如经典生成对抗网络的先验分布^[31]. Cheng等^[32]还从信息熵的角度比较了量子玻恩机与受限玻尔兹曼机^[33,34], 为理解基于概率的生成模型和基于能量的生成模型提供了一个新的视角. Coyle等^[35]提出一种量子玻恩机的子类—量子伊辛玻恩机—并引入量子核函数^[36]来讨论量子学习优势.
2

2.3.量子玻尔兹曼机

-->

2.3.量子玻尔兹曼机

与前述模型不同, 量子玻尔兹曼机^[9-12] (quantum Boltzmann machine, QBM)需要一种专用的量子计算机—量子退火机.
经典的玻尔兹曼机被广泛用作机器学习的基础工具, 例如深度信念网络^[37,38]和深度玻尔兹曼机^[37,39]. 玻尔兹曼机是二进制数节点构成的概率生成网络, 由可见节点和隐藏节点组成, 记为$z_a, a = $

$ 1, 2, \cdots, N$

, 其中N是总节点数. 这里为了和后面的量子生成模型保持一致, 取$ z_a\in\{+1, -1\} $

而不是$ z_a\in\{+1, 0\} $

. 为区别可见节点和隐藏节点, 我们分别记为$ z_\nu, z_i $

. 同时用向量符号${{{v}}}, {{{h}}}, {{{z}}} = ({{{v}}}, {{{h}}})$

表示可见态、隐藏态和组合态. 在物理上其能量可以用伊辛模型表示:

$ E_{{{{z}}}} = -\sum\limits_{a}b_a z_a -\sum\limits_{a,b}w_{ab}z_a z_b, $

其中$ b_a, w_{ab} $

是在训练的过程中进行需要优化的参数. 定义负对数相似度损失函数:

$ {\cal{L}} = -\sum\limits_{{{{v}}}}P_{{{{v}}}}^{{\rm{data}}}\log P_{{{{v}}}} = -\sum\limits_{{{{v}}}}P_{{{{v}}}}^{{\rm{data}}}\log \frac{\sum\nolimits_{{{{h}}}} {\rm{e}}^{-E_{{{{z}}}}}}{\sum\nolimits_{{{{z}}}'} {\rm{e}}^{-E_{{{{z}}}'}}}, $

其中观测到可见态${{{h}}}$

的概率为边际分布$P_{{{{v}}}} = $

$ Z^{-1}\sum\nolimits_{{{{h}}}}{\rm{e}}^{-E_{{{{z}}}}}$

, $\quad Z = \sum\nolimits_{{{{z}}}}{\rm{e}}^{-E_{{{{z}}}}}$

. 那么玻尔兹曼机的任务就是优化哈密顿量的参量$ \theta\in\{b_a, w_{ab}\} $

, 使边际分布尽可能接近真实的数据分布$P_{{{{v}}}}^{{\rm{data}}}$

. 这样就可以用梯度的方法来优化玻尔兹曼机:

$ \frac{\partial {\cal{L}}}{\partial \theta} = \sum\limits_{{{{v}}}}P_{{{{v}}}}^{{\rm{data}}} \frac{\sum\nolimits_{{{{h}}}} \partial_{\theta}E_{{{{z}}}} {\rm{e}}^{-E_{{{{z}}}}}}{\sum\nolimits_{{{{h}}}} {\rm{e}}^{-E_{{{{z}}}}}} - \frac{\sum\nolimits_{{{{z}}}} \partial_{\theta}E_{{{{z}}}} {\rm{e}}^{-E_{{{{z}}}}}}{\sum\nolimits_{{{{z}}}} {\rm{e}}^{-E_{{{{z}}}}}} ,$

$\frac{\partial {\cal{L}}}{\partial \theta} = \overline{\left\langle {\partial_{\theta} E_{{{{z}}}} } \right\rangle _{{{{v}}}} }-\left\langle {\partial_{\theta} E_{{{{z}}}}} \right\rangle, $

其中$ {\left\langle \cdots \right\rangle } $

和${\left\langle \cdots \right\rangle }_{{{{v}}}}$

分别为对自由变量的玻尔兹曼均值以及对可见变量的玻尔兹曼均值. $\overline{{\left\langle \cdots \right\rangle }_{{{{v}}}}}\equiv $

$ \sum\nolimits_{{{{v}}}}P_{{{{v}}}}^{{\rm{data}}}{\left\langle \cdots \right\rangle }_{{{{v}}}}$

是双重均值. 这样我们就得到更新法则:

$ \delta b_a = \eta (\overline{{\left\langle {z_a} \right\rangle }_{{{{v}}}}} -{\left\langle {z_a} \right\rangle }), $

$ \delta w_{ab} = \eta (\overline{{\left\langle {z_az_b} \right\rangle }_{{{{v}}}}} -{\left\langle {z_az_b} \right\rangle }). $

关于如何估算等式右边的两项均值, 在机器学习领域已经有较多的方案, 其中一个简化的玻尔兹曼机模型—称之为受限玻尔兹曼机(restricted Boltzmann machine, RBM)—已经成功的应用于实例^[40].
量子玻尔兹曼机的出发点是使用作为物理实体的量子比特来替代经典的比特或节点. 然而不同的是, 量子力学体系的哈密顿量是$ 2^N \times 2^N $

维的矩阵. 而且量子力学算符大多是不对易的, 这对于求解梯度十分不便. 横场伊辛模型的哈密顿量形式为:

$ H = -\sum\limits_{a}\varGamma_a {{\sigma}}_a^x-\sum\limits_{a}b_a {{\sigma}}_a^z-\sum\limits_{a,b}w_{ab}{{\sigma}}_a^z{{\sigma}}_b^z, $

其中${{I}}, {{\sigma}}^z, {{\sigma}}^x$

为泡利矩阵, 下标a表示作用于第a个量子比特. 与经典玻尔兹曼机类似, 定义配分函数和密度矩阵分别为: $Z ={\rm{ Tr}}[{\rm{e}}^{-H}], \quad \rho = $

$ Z^{-1}{\rm{e}}^{-H}$

. 对于给定的可见态${\left| {{{{v}}}} \right\rangle }$

, 可定义边际分布$P_{{{{v}}}} = {\rm{Tr}}[\varLambda_{{{{v}}}}\rho], \quad \varLambda_{{{{v}}}} = {\left| {{{{v}}}} \right\rangle }\left\langle {{{{v}}}} \right|\otimes {\cal{I}}_{{{{h}}}}$

. 其中${\cal{I}}_{{{{h}}}}$

为作用在隐藏变量的单位阵.
那么类似地, 可以得到量子损失函数和对应梯度为:

$ {\cal{L}} = -\sum\limits_{{{{v}}}}P_{{{{v}}}}^{{\rm{data}}}\log \frac{{\rm{Tr}}[\varLambda_{{{{v}}}}{\rm{e}}^{-H}]}{{\rm{Tr}}[{\rm{e}}^{-H}]}, $

$ \frac{\partial {\cal{L}}}{\partial \theta} = \sum\limits_{{{{v}}}}P_{{{{v}}}}^{{\rm{data}}} \left( {\frac{{{\rm{Tr}}[{\varLambda _{{{ v}}}}{\partial _\theta }{{\rm{e}}^{ - H}}]}}{{{\rm{Tr}}[{\varLambda _{ {{v}}}}{{\rm{e}}^{ - H}}]}} - \frac{{Tr[{\partial _\theta }{{\rm{e}}^{ - H}}]}}{{Tr[{{\rm{e}}^{ - H}}]}}} \right). $

然而H和$ \partial_{\theta}H $

并不对易, 也就是$\partial_{\theta}{\rm{e}}^{-H}\neq $

$ -{\rm{e}}^{-H}\partial_{\theta}H$

. 这样在求解期望值的时候就会十分困难. 尽管Amin^[9]通过分析的方法估算除了损失函数的界, 在一些特定的条件下可以估算损失函数的梯度, 但与前述量子生成模型相比, 参数更新的成本已然增加了.
尽管如此, 量子玻尔兹曼机仍然可以用来完成监督学习任务, 可以生成概率分布, 可以进行鉴别学习. Amin等^[9]用量子玻尔兹曼机实现了伯努利分布的概率生成. Kieferová^[12]用量子玻尔兹曼机设计了一种生成模型用以实现部分的量子态层析, 并且除非$ BQP = BPP $

, 经典计算机无法有效地模拟其训练过程. Dorband^[41]在D-wave量子退火机上演示了量子玻尔兹曼机的构建过程. 但是, 相较于其他量子生成模型, 量子玻尔兹曼机带来的近似误差是难以避免的, 同时也难以说明相较于经典版本的优势所在.
2

2.4.量子自编码器

-->

2.4.量子自编码器

在经典的数据处理中, 通过机器学习中的自编码器可以将数据从一个高维空间缩减到低维空间. 经典的自编码模型可以概括为: 通过参数化的神经网络来训练一个数据集, 其数据维度为$ (n+k) $

, 得到擦除k个特征或维度的新数据, 如果这些数据可以通过解码器(神经网络)重新生成接近于原数据的一组新数据, 那么留下的n维数据被称为压缩数据. 这个过程被称为数据压缩. 数据压缩对于处理稀疏特征数据集或高维数据集是十分直观和有效的手段. 受此启发, 量子自编码器^[13-15](quantum autoencoder)被设计为量子态压缩的工具.
Romero等^[13]提出的量子自编码器与经典类似: 记$ \{ p_i, {\left| {\psi_i} \right\rangle }_{AB}\} $

是$ (n+k) $

个量子比特上的纯态集合, 子系统A和子系统B分别占有n和k个比特. 记$U^{{{{\theta}}}}$

为作用在$ (n+k) $

个比特上的幺正算符, 其中${{{\theta}}} = \{ \theta_1, \theta_2, \cdots\}$

是参数集合, 以及$ {\left| a \right\rangle }_{B'} $

为k比特寄存器的参考纯态. 通过经典的优化方式, 我们希望平均保真度函数取得最大值:

$ C_1({{{\theta}}}) = \sum\limits_{i} p_i \cdot F({\left| {\psi_i} \right\rangle },\rho_{i,{{{\theta}}}}^{{\rm{out}}}), $

其中保真度定义为$F({\left| {\psi_i} \right\rangle }, \rho_{i}^{{\rm{out}}}) = \left\langle {{\psi _i}|\rho _i^{{\rm{out}}}|{\psi _i}} \right\rangle$

, $\rho_{i, {{{\theta}}}}^{{\rm{out}}}$

是线路经过解码后的密度矩阵:

$ \rho_{i,{{{\theta}}}}^{{\rm{out}}} = (U^{{{{\theta}}}})^\dagger_{{\rm{AB}}'}{\rm{Tr}}_B[U^{{{{\theta}}}}_{{\rm{AB}}} [\psi_{i_{{\rm{AB}}}}\otimes a_{{\rm{B}}'}](U^{{{{\theta}}}})^\dagger_{{\rm{AB}}} ]U^{{{{\theta}}}}_{{\rm{AB}}'} $

其中$\psi_{i_{{\rm{AB}}}} = {\left| {\psi_i} \right\rangle }\left\langle {{\psi _i}} \right|_{{\rm{AB}}}$

, 以及$a_{{\rm{B}}'} = {\left| a \right\rangle }\left\langle a \right|_{{\rm{B}}'}$

.
量子自编码器的核心在于, 如果想要有效地压缩量子态, 必须保证态${\left| {\psi_i'} \right\rangle } = U^{{{{\theta}}}}{\left| {\psi_i} \right\rangle }_{{\rm{AB}}}$

是A, B两个子系统的直积态. 即当下式成立时, 才有$ C_1 = 1 $

$ U^{\vec{\theta}}{\left| {\psi_i} \right\rangle }_{{\rm{AB}}} = {\left| {\psi_i^c} \right\rangle }_{\rm{A}}\otimes {\left| a \right\rangle }_{\rm{B}}, $

其中${\left| {\psi_i^c} \right\rangle }_{\rm{A}}$

是$ {\left| {\psi_i} \right\rangle } $

的压缩后的态.
对输出态进行量子态层析以确定其密度矩阵是非常困难的. 可以证明测量B和B' 寄存器的态保真度等价于AB寄存器初态和末态的保真度(我们称B寄存器输出态为冗态). 这样, 可以定义另一种平均保真度$C_2({{{\theta}}})$

$ C_2({{{\theta}}}) = \sum\limits_{i} p_i \cdot F( {\rm{Tr}}_{\rm{A}}[U^{{{{\theta}}}}{\left| {\psi_i} \right\rangle }_{{\rm{AB}}}\left\langle {\psi_i} \right|_{{\rm{AB}}}(U^{{{{\theta}}}})^\dagger],{\left| a \right\rangle }_{\rm{B}} ). $

实际上求两个态的保真度, 有一种SWAP测试线路可以完成^[42].
通过参数量子线路来构建作用于AB系统的幺正变换, 并通过SWAP测试线路得到保真度信息. 取损失函数为$ {\cal{L}} = -\log (1-C_2) $

, 采用经典方式进行优化, 可以得到保真度最高的参数线路, 这样就实现了数据压缩.
如图2所示, 量子态压缩模型可以由以下步骤来构建: 第一, 制备初态$ {\left| {\psi_i} \right\rangle } $

和参考态$ {\left| a \right\rangle } $

, 并假设制备是有效的; 第二, 构建参数线路, 初态在幺正算符U下演化; 第三, 通过SWAP测试得到冗态和参考态之间的保真度.

图 2 量子自编码器的训练示意图, 其中$ {{{p}}}$

表示变量, 摘自^[13]
Figure2. Schematic representation of the hybrid scheme for training a quantum autoencoder where $ {{{p}}}$

represents variables, image from^[13].

量子自编码器在氢分子态的应用是一个成功的例证^[13]. 其方法是用4 qubits来模拟氢分子, 通过变分量子求解器(VQE)求出对于固定原子间距的量子态, 以此作为量子自编码器的输入态. 氢分子的态并非占满了4 bit的希尔伯特空间, 这就为量子态压缩提供了可能. 直观上看, 量子态压缩的过程就像在整个希尔伯特空间中将若干子空间碎片像拼图一样拼接成紧密的空间. 量子自编码器在量子加法器方面也有一定的应用^[14], 这种加法器用以实现将两个相同比特数的量子子系统编码到一个新的子空间. Ding等^[43]借助超导量子体系在实验上验证了量子加法器的可行性, 实验保真度与理论值一致.
Pepper等^[44]采用了Romero等^[13]提出的量子自编码器框架, 不同的是, 其数据压缩任务是将多维量子比特(qutrit, $ {\left| \psi \right\rangle } = \alpha {\left| 0 \right\rangle }+\beta{\left| 1 \right\rangle }+\gamma{\left| 2 \right\rangle } $

(已归一化))压缩为二维量子比特(qubit)态. 通过光量子实验体系, Pepper等在实验上实现了qutrits的压缩, 并且证明了这样的实验优化系统对扰动是鲁棒的. Bondarenko等^[45] 注意到经典数据通过经典自编码器可以有效地去除噪声, 因此量子自编码器同样有类似的作用. 通过构建以自旋翻转噪声和任意幺正门噪声为主的GHZ含噪声量子态, Bondarenko等验证了量子自编码器在量子数据去噪方面的作用.
如何判断量子态能否通过量子自编码器有效压缩一直受到关注, Huang等^[46]在理论上论证了实现有效量子自编码态压缩的条件, 并证明了若输入数据的最大线性无关向量的个数不超过隐变量空间(压缩后的低维空间)的维度, 那么量子自编码器就可以无损地将高维数据压缩至低维. Huang等利用量子光学体系在实验上验证了其理论的结果. 此外Cao等^[47]提出可在量子退火机上运行、通过噪声辅助的绝热模型, 同样可以完成量子自编码任务. 同时, 对量子态压缩的探索也使得量子梯度消失的现象—也即贫瘠高原的现象—得到进一步的研究^[48].
2

2.5.其他生成模型

-->

2.5.其他生成模型

从前述量子生成模型可以看出, 经典机器学习给我们带来了很多启发. 类似地, 经典领域中因子图(factor graph)可以作为概率生成模型, Gao等^[49]提出了一种量子生成模型(quantum generative model, QGM), 并证明此模型可以高效地表示任意因子图. 并且通过理论证明至少存在一些特定的概率分布, 可以被QGM有效表示, 但不能被任意具有多项式量级变量的因子图有效表示. 如果多项式层次作为P vs. NP问题的泛化是不塌缩的话, QGM相对于经典的因子图具有指数优势.
同时, 除了QGM的表示能力和泛化能力, Gao等^[49]还提出了一种通用的量子学习算法, 该算法利用张量网络、对多体纠缠量子态的父哈密顿量(parent Hamiltonian)构建、以及递归的量子相位估计进行学习. 显然希望这种算法对任意问题都能在多项式时间内解决是不现实的, 但作者证明了至少存在一些问题, QGM相对于任意经典算法均有指数加速的效果, 前提是假设量子计算机不能被经典计算机有效地模拟.
直观地理解QGM中的指数加速效果: 机器学习中的生成模型旨在通过寻找潜在的概率分布, 对自然界任意的数据生成过程进行建模. 由于自然界受量子力学定律支配, 用经典生成模型中的概率分布对真实世界中的数据进行建模具有很大的局限性. Gao等^[49]提出的QGM模型, 用一个多体纠缠量子态的概率幅对数据的相关性进行参数化. 因为量子概率幅的相干性产生的现象比经典的复杂得多, QGM才有可能在特定情况下实现性能的显著提升. QGM使用图态$ {\left| G \right\rangle } $

表示, 由m个量子比特与图G构成. 如图3所示.

图 3 经典和量子生成模型　(a) 因子图表示; (b)张量网络态表示; (c)量子生成模型定义^[49]
Figure3. Classical and quantum generative models: (a) Illustration of a factor graph; (b) illustration of a tensor network state; (c) QGM definition^[49]

Gao^[50]有另一篇工作同样旨在发掘量子相关性在生成模型中的作用. 其中比较了经典贝叶斯网络顺序模型与对应的一维张量网络, 展示了矩阵直积态(matrix product states, MPSs)比经典机器学习模型有更强的表示能力. 因为一维模型可以在经典计算机上被有效模拟, Gao等采用数值模拟的方式测试了真实数据集的生成, 发现MPS生成能力比经典模型有提升. 此结果为理解基于MPS的机器学习算法提供了新的视角, 因为有一类张量网络子类不能有效地被经典计算机模拟, 但是可以在量子计算机上构建, 这就使得在机器学习中的生成模型框架下量子优势是可能存在的.
除以上的量子生成模型外, 还有基于贝叶斯理论提出量子贝叶斯线路^[16]. 这种量子线路引入辅助比特表示先验概率分布, 通过受控操作传递给数据比特寄存器. 这样可以极大地规避参数量子线路中出现的生成概率不均匀的问题.

3.量子生成模型展望

随着量子计算机硬件的不断发展, 量子生成模型也不只在量子虚拟机上得到实现, 基于真实量子芯片的生成模型受到了广泛的关注, 但是量子生成模型存在的问题仍待解决.
首先, 量子生成模型是否可以生成任意概率分布的数据? 对于连续变量的数据, 量子生成模型还无法像经典神经网络一样有效地生成. 同时, 数据是量子还是经典的决定了生成模型的选取. 对于经典数据, 利用MPQCs或MPSs生成量子态, 对量子态的测量得到了量子信息的经典统计结果. 如何更有效地生成量子态以及如何从量子态读取更多信息一直受到关注, 不同的量子生成模型给出了不同的策略, 然而对于任意连续变量数据的生成还需要进一步的探索.
其次, 量子生成模型作为量子机器学习的一部分, 如何体现量子计算的优势, 仍然是一个开放性问题. 对量子线路的表示能力的研究为我们提供了一个思路, 但是对于不同的生成模型很难给出统一的表示能力定义. 而Gao等^[49,50]从量子相关性出发, 直观上将量子内在相关性的参数化来实现经典生成模型无法模拟的任务, 说明了量子优势在机器学习领域中的存在性.
对于量子生成模型, 还需要进一步探索. 在量子领域, 量子生成模型提供了NISQ体系下可执行的算法, 在机器学习领域, 它引入了量子计算和量子信息的理念, 使机器学习算法突破经典计算的瓶颈成为可能.
感谢中国科学技术大学薛程博士和赵健博士的讨论.