|
所以,我们最终得到的不是最优解的整个子流形,而是2cc!KL散度相对于M和M的最小值。如果S中各个分量的先验协方差不相同,则互换对称性被破坏,所有这些最小值不再具有相同的散度。因此,使用梯度下降法,我们不一定会得到全局最小值。这可以通过离散优化步骤来解决,尝试混合物和组分的所有可能排列,并选择KL发散度最小的一个。如果一个人也推断出优先相关结构,那么这个问题也会消失,因为优先相关结构会适应所选的排列,从而导致全局最小值。我们已经看到,在所有分量的先验相关结构相同的情况下,散度的所有极小值都是全局极小值,因此无论起始位置如何,我们都会收敛到最优解。然而,收敛速度很难估计,因为我们依赖于参数连续最小化的迭代。当我们用共轭梯度法求逆时,每个极小化收敛得相当快,这取决于所涉及矩阵的条件数。总的收敛速度应取决于KL散度中分量均值m和混合物m之间的相关性。它们之间的相关性越小,单个参数应达到最小值。然而,强相关性不允许出现大的步骤,因此速度较慢。实际上,计算效率高度依赖于各种量的选择。对于平均100101谐波模式10,该算法分为两个不同的最小化-310-210-1相关组件功率谱图2。
|