FM × scDynamics(5): Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation
Published:
第五篇关于 Flow Matching in Single-Cell Trajectory Inference 的文献阅读,我们转向一篇从另一个角度思考的文章:Palma 等人的《Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation》(下文简称 FlatVI)。
这篇文章的切入点与我们之前介绍的 OT-CFM、VGFM 或 OT-MFM 有所不同。之前的这些工作大多致力于在给定的空间中寻找更好的传输路径(例如引入最优传输或黎曼几何),而 FlatVI 则退后一步,审视了这些方法赖以生存的“舞台”——潜在空间(Latent Space)本身。它关注的核心问题是:如何为 Single-Cell Dynamics 这类下游任务构建一个在几何上更“友好”、更符合算法假设的低维 Embedding?
具体来说,现有的 Flow Matching 或 OT 方法(如 OT-CFM, VGFM, OT-MFM)在实际应用中,几乎从不直接在原始高维的 scRNA-seq 计数空间上操作,而是遵循一个标准的“两步走”范式:
- 降维表示:利用 PCA、PHATE 或深度生成模型(如基于负二项分布的 NB-VAE / scVI)将高维细胞数据嵌入到一个低维潜在空间 $Z$;
- 动力学建模:在这个低维空间 $Z$ 中训练向量场或计算最优传输耦合。
然而,在这个过程中存在一个被长期忽视的几何错配(Geometric Mismatch):下游的动力学模型(特别是 OT-CFM)通常假设潜在空间是欧几里得空间,并使用直线插值(Linear Interpolation)和欧氏距离($L^2$ Norm)来定义最优路径。但这一假设对于标准的 scRNA-seq VAE 来说往往是不成立的。FlatVI 的核心贡献正是指出了这一隐含假设的破裂:
- 非欧几何本质:标准 NB-VAE 学到的潜在空间 $Z$,其诱导的黎曼几何(Pullback Metric)通常既不平坦(Flat)也不各向同性(Isotropic)。
- 插值的代价:因此,潜在空间中的直线插值 $z_t = (1-t)z_0 + t z_1$ 在解码回数据流形后,往往并不对应真实的测地线(Geodesic)或生物学上的最短路径。
- 下游影响:这种几何上的不一致性会直接误导依赖欧氏假设的下游方法,导致生成的轨迹偏离真实的细胞发育路径,降低模型的可解释性。
我们在上一篇 Metric FM 中也探讨了类似的问题。Metric FM 的思路是“山不就我,我去就山”——既然潜在空间是弯曲的,那我们就修改插值策略,在弯曲空间中寻找测地线。而实际上,还有另一种互补想法,就是通过在第一阶段降维训练的时候,就考虑流形的转变,把空间拉直,就像这篇博客 FlatVI 提出了另一种互补的思路:“我来移山”——通过正则化手段强制 VAE 的潜在空间变平,使其尽可能接近欧几里得空间。
为此,作者提出了 FlatVI:在保持 NB-VAE 重建能力的同时,通过正则化解码器诱导的拉回度量(Pullback Metric),迫使潜在流形的几何结构逼近欧氏几何。这使得“Latent 直线插值 $\approx$ 数据流形测地线”这一假设在数学上更加成立,从而为下游的 OT-CFM 提供了一个真正“名副其实”的欧氏舞台。
1. 背景:单细胞离散 VAE 与自编码器的黎曼几何
1.1 离散 NB-VAE:scRNA-seq 的概率建模标准
论文首先回顾了单细胞计数数据上的标准生成模型。记 scRNA-seq 数据为 $X \in \mathbb{N}^{N\times G}$,其中 $N$ 是细胞数,$G$ 是基因数。每个观测值 $x_{ng}$ 代表第 $n$ 个细胞中第 $g$ 个基因的转录本计数。为了准确捕捉单细胞数据的稀疏性(Sparsity)和过度离散(Overdispersion, Variance > Mean)特性,作者采用了负二项分布(Negative Binomial, NB)作为观测似然:
- 分布假设:对于第 $g$ 个基因,给定细胞特异的均值 $\mu_{ng}$ 和基因特异的逆色散参数(Inverse Dispersion)$\theta_g$,计数服从 $x_{ng} \sim \text{NB}(\mu_{ng}, \theta_g)$。
- 生物学意义:稀疏性反映了基因表达的随机性和测序技术的捕获效率;过度离散则由 $\theta_g$ 控制,用于模拟比泊松分布更剧烈的生物学噪声。
在 VAE 框架下,模型构建如下联合分布: \(p_\theta(x,z) = p_\theta(x\mid z)\,p(z), \quad z \sim \mathcal{N}(0, I_d),\ d \ll G,\) 其中 $p_\theta(x\mid z)$ 由解码器网络 $h_\theta$ 参数化。具体的前向过程为:
- 编码(Encoder):输入基因表达向量 $x$,通过编码器 $f_\psi$ 得到潜在变量的后验分布参数,并采样得到 $z$。
- 解码(Decoder):将 $z$ 映射回基因空间,输出归一化的表达比例,并结合测序深度(Library Size)$l$ 得到均值: \(\mu = h_\mu(z, l) = l \cdot \mathrm{softmax}(p_\rho(z)),\) 其中 $l$ 通常直接从输入数据中计算(如总 UMI 数),$\theta_g$ 作为全局参数独立学习。
这构成了标准的 scVI 风格模型:用连续低维潜在空间 $Z$ 捕捉细胞状态流形,用 ELBO 目标函数联合优化模型参数。
1.2 自编码器的几何学:拉回度量(Pullback Metric)
接下来,论文在第 3.2 节引入了黎曼几何视角,形式化地探讨了“潜在空间到底蕴含了什么几何结构”这一核心问题。
在一个理想的连续数据流形 $\mathcal{M}_X \subset \mathbb{R}^G$ 上,我们可以定义一个黎曼度量(Riemannian Metric) $M(x)$。对于流形上的任意一点 $x$,度量 $M(x)$ 是一个对称正定矩阵,它定义了切空间 $T_x\mathcal{M}_X$ 上的局部内积: \(\langle u, v \rangle_{M(x)} = u^\top M(x) v.\) 这个内积规定了该点附近的“微小位移”的实际长度。如果 $M(x) \equiv I_G$ 处处成立,则流形退化为标准的平坦欧几里得空间。
对于自编码器,解码器 $h: Z \to \mathcal{M}_X$ 定义了一个从潜在空间到数据流形的浸入(Immersion)。我们可以通过解码器的雅可比矩阵 $J_h(z)$,将数据流形上的度量“拉回”(Pullback)到潜在空间,定义拉回度量: \(M(z) = J_h(z)^\top M(h(z)) J_h(z).\) 这个度量 $M(z)$ 刻画了潜在空间 $Z$ 的内蕴几何:在 $Z$ 中移动一小步 $dz$,在数据流形上产生的实际变化量是 $dz^\top M(z) dz$。基于此度量,我们可以定义潜在空间上的测地距离(Geodesic Distance):连接 $z_1, z_2$ 的所有曲线中,在度量 $M(z)$ 下长度最短的那一条的长度。
关键几何直觉: 当且仅当 $M(z)$ 在整个潜在空间上都是常数倍的单位矩阵(即 $M(z) = \alpha I_d, \alpha > 0$)时,潜在空间的几何才是平坦且各向同性的。此时(也只有此时),潜在空间中的直线插值才等价于黎曼几何意义下的测地线。否则,潜在空间就是弯曲的,直线插值会偏离真实的“最短路径”。
对于 VAE 这类随机解码器(Stochastic Decoder),输出的是分布参数 $\phi$(如 NB 的 $\mu, \theta$)。此时,数据流形被视为一个统计流形(Statistical Manifold),其自然的度量是费舍尔信息度量(Fisher Information Metric, FIM): \(M(\phi) = \mathbb{E}_{p(x\mid\phi)}\big[\nabla_\phi \log p(x\mid\phi)\, \nabla_\phi \log p(x\mid\phi)^\top\big].\) 同样地,我们可以通过解码器将 FIM 拉回到潜在空间: \(M(z) = J_h(z)^\top M(\phi)\, J_h(z).\)
在单细胞 NB-VAE 场景下,这意味着:NB-VAE 隐式地定义了一个由 NB 分布的 FIM 诱导的潜在几何。 由于 NB 分布的方差依赖于均值(Mean-Variance Relationship),且解码器是非线性的,这个诱导几何 $M(z)$ 注定是非均匀且各向异性的。如果我们无视这一事实,强行使用欧氏直线插值,就会导致潜在路径与数据流形上的真实变化路径发生严重的几何错配。
2. FlatVI:强制潜在空间“变平”
2.1 核心动机:潜在欧几里得假设(Latent Euclidean Assumption)
在第 4.1 节中,作者敏锐地指出,目前绝大多数单细胞表示学习与下游分析流程中,都隐含着一个强假设——“潜在欧几里得假设”:
- 表示学习:使用 VAE 将细胞映射到连续潜在空间 $Z$;
- 线性建模:在 $Z$ 中使用直线位移来模拟细胞状态的生物学转换;
- 下游算法:扰动预测、基因表达距离计算、轨迹推断(如 OT-CFM)等,均默认 $Z$ 是一个配备标准欧氏度量的平坦空间。
然而, 正如前文所述,标准的 ELBO 训练目标仅关注重建似然和先验匹配(KL 散度),它对拉回度量 $M(z)$ 的几何形状没有任何显式的约束。这导致了一个危险的局面:
- 我们在 $Z$ 中画了一条直线,自以为是在走“最短路径”;
- 但在真实的统计流形几何(由 $M(z)$ 定义)下,这条直线可能是一条极其扭曲的弯路;
- 结果是:OT-CFM 在 latent 空间计算的“最优传输”,解码回基因空间后,可能对应着一条生物学上极不自然的轨迹。
为了解决这个问题,作者引入了两个温和的几何假设(第 4.2 节):
- 测地凸性(Geodesic Convexity):假设数据流形上任意两点间存在唯一的测地线。这排除了复杂的环状拓扑(如细胞周期),但对于分化树等发育轨迹是合理的。
- 局部控制全局(Local-to-Global Approximation):通过在观测数据点附近约束局部几何(拉回度量),可以近似控制流形的全局几何性质。
基于此,FlatVI 的目标变得非常明确:通过正则化手段,强制拉回度量 $M(z)$ 在观测数据附近处处逼近一个常数倍的单位矩阵。这样,潜在空间的内蕴几何就被“拉平”了,欧氏直线也就自然成为了测地线。
2.2 扁平化损失(Flattening Loss)
FlatVI 的核心创新在于在标准 ELBO 基础上引入了一个扁平化损失,直接对拉回度量进行正则化。定义如下: \(L_{\text{flat}}(\phi,\psi,\alpha) = \mathbb{E}_{q_\psi(z\mid x)}\big[\lVert M(z) - \alpha I_d \rVert_F^2\big],\) 其中:
- $M(z)$ 是由当前解码器参数 $\phi$ 决定的拉回度量;
- $\alpha$ 是一个可学习的标量参数。这一点至关重要:我们并不强制 $M(z)$ 等于单位矩阵 $I$(这会限制潜在空间的尺度),而是允许它缩放,只要它在各个方向(各向同性)和各个位置(平坦性)上保持一致即可。
期望是在编码器的近似后验 $q_\psi(z x)$ 上计算的,意味着我们只关心数据分布支撑集附近的几何平坦性。
最终的训练目标为: \(L_{\text{FlatVI}} = L_{\text{ELBO}} + \lambda\,L_{\text{flat}},\) 其中 $\lambda$ 是控制几何正则化强度的超参数。
直观理解:
- 各向同性(Isotropy):$\lVert M(z) - \alpha I_d \rVert_F^2$ 惩罚了 $M(z)$ 特征值的差异,迫使不同方向上的“长度单位”统一。
- 平坦性(Flatness):通过在不同 $z$ 处逼近同一个 $\alpha I_d$,它抑制了度量随位置的剧烈变化(曲率)。
- 权衡:解码器一方面要通过 ELBO 尽可能准确地重建数据(这通常需要弯曲的几何),另一方面要通过 $L_{\text{flat}}$ 保持几何平坦。FlatVI 寻找的就是这两者之间的最佳平衡点。
2.3 关键推导:负二项分布的 FIM 与 $M(z)$
为了实现 FlatVI,我们必须能够高效计算 $M(z)$。论文在附录 B 中给出了基于负二项分布(NB)的详细推导。这里我们将其整理为三个步骤,方便理解其物理意义和实现细节。
第一步:单变量 NB 分布的 FIM
考虑单个基因的计数 $x$,其服从参数为 $\mu$(均值)和 $\theta$(逆色散)的 NB 分布: \(p_{\text{NB}}(x\mid\mu,\theta) = \frac{\Gamma(\theta + x)}{x!\,\Gamma(\theta)} \left(\frac{\theta}{\theta + \mu}\right)^{\theta} \left(\frac{\mu}{\theta + \mu}\right)^{x}.\) 我们关注的是关于均值参数 $\mu$ 的 Fisher 信息(因为只有 $\mu$ 是潜在变量 $z$ 的函数,$\theta$ 是全局参数)。对数似然关于 $\mu$ 的二阶导数为: \(\frac{\partial^2}{\partial\mu^2} \log p_{\text{NB}} = \frac{\theta + x}{(\theta+\mu)^2} - \frac{x}{\mu^2}.\) FIM 定义为二阶导数的负期望: \(M(\mu) = -\,\mathbb{E}_{x}\left[\frac{\partial^2}{\partial\mu^2} \log p_{\text{NB}}\right] = \mathbb{E}\left[\frac{x}{\mu^2} - \frac{x+\theta}{(\theta+\mu)^2}\right].\) 利用 NB 分布的性质 $\mathbb{E}[x] = \mu$,代入上式: \(M(\mu) = \frac{\mu}{\mu^2} - \frac{\mu+\theta}{(\theta+\mu)^2} = \frac{1}{\mu} - \frac{1}{\mu+\theta} = \frac{\theta}{\mu(\mu+\theta)}.\) 结论:单基因的统计流形度量标量为 $w_g = \frac{\theta_g}{\mu_g(\mu_g+\theta_g)}$. 这表明,当基因表达均值 $\mu_g$ 较小或色散 $\theta_g$ 较大时,该基因对参数变化的敏感度(信息量)更高。
第二步:拉回到潜在空间(单基因贡献)
在 VAE 中,第 $g$ 个基因的均值是潜在变量的函数 $\mu_g = h_g(z)$。根据黎曼几何的拉回公式,该基因对潜在空间度量矩阵的贡献 $M_g(z)$ 为: \(M_g(z) = \nabla_z h_g(z) \cdot M(\mu_g) \cdot \nabla_z h_g(z)^\top = \frac{\theta_g}{h_g(z)(h_g(z)+\theta_g)} \nabla_z h_g(z) \nabla_z h_g(z)^\top.\) 这里 $\nabla_z h_g(z)$ 是解码器输出对输入的梯度(Jacobian 的第 $g$ 行)。
第三步:全局拉回度量 $M(z)$
由于 NB-VAE 假设给定 $z$ 后各基因条件独立,总的 Fisher 信息矩阵等于各基因 FIM 之和。因此,完整的拉回度量为: \(M(z) = \sum_{g=1}^G M_g(z) = \sum_{g=1}^G \underbrace{\frac{\theta_g}{h_g(z)(h_g(z)+\theta_g)}}_{\text{统计权重 } w_{ng}} \underbrace{\nabla_z h_g(z) \otimes \nabla_z h_g(z)}_{\text{几何结构}}.\)
实现视角的解读: 这个公式揭示了 $M(z)$ 的本质——它是一个加权的外积和。
- 几何项 $\nabla_z h_g(z)$:如果潜在变量 $z$ 的微小变动导致基因 $g$ 的表达量剧烈变化,该方向的度量值就会变大(距离被拉长)。
- 统计权重 $w_{ng}$:来自 NB 分布的内禀性质。低表达或高噪声的基因,其权重会有所不同,调节了该基因对总几何的贡献。
在代码实现中,这可以通过计算解码器 Jacobian,然后进行加权矩阵乘法高效完成。FlatVI 正是通过惩罚这个 $M(z)$ 与 $\alpha I$ 的差异,来迫使解码器学习一个“平滑且均匀”的映射。
3. 实验:从合成 NB 数据到真实单细胞轨迹
作者在合成数据和多个真实单细胞数据集上系统评估了 FlatVI 的几何效果以及对下游轨迹推断的影响。
3.1 评估指标详解:构建量化的坐标系
为了全面评估模型性能,论文采用了一套涵盖分布匹配、几何一致性和生物学合理性的指标体系。以下是对这些关键指标的详细解读。
3.1.1 2-Wasserstein 距离 ($W_2$):分布层面的最优传输代价
定义:给定两个概率分布 $\mu, \nu$(例如真实细胞分布与预测分布),$W_2$ 距离度量了将 $\mu$ 变换为 $\nu$ 所需的最小“搬运功”。对于离散样本,它等价于求解一个最优传输(Optimal Transport)问题: \(W_2^2(\mu, \nu) = \inf_{\gamma \in \Pi(\mu, \nu)} \int \|x - y\|_2^2 \, \mathrm{d}\gamma(x, y).\) 直观理解:
- 想象将一堆土(分布 $\mu$)搬运到另一个形状(分布 $\nu$),$W_2$ 是在最优规划下的总运输成本(距离平方和)。
- 与简单的欧氏距离不同,它关注的是整体分布形状的匹配程度,而非点对点的对应。
在本文中的作用:
- Latent 空间:衡量 OT-CFM 预测的中间时间点分布是否与真实观测分布重合。
- 基因空间:衡量解码后的基因表达分布是否逼近真实数据,这是评价轨迹生成质量的核心指标。
3.1.2 平均 L2 距离 (Average L2):单细胞级的轨迹误差
定义:在潜在空间中,计算真实细胞 $z_i^{\text{real}}$ 与其对应的重建/预测细胞 $z_{\sigma(i)}^{\text{pred}}$ 之间的欧氏距离平均值: \(\text{L2-avg} = \frac{1}{N} \sum_{i=1}^N \| z_i^{\text{real}} - z_{\sigma(i)}^{\text{pred}} \|_2.\) 直观理解:
- 这是点对点(Point-wise)的精度指标。如果说 $W_2$ 看的是“面”,L2 看的就是“点”。
- 它要求模型不仅分布对得上,而且每个具体的细胞都要预测得准。
3.1.3 最大均值差异 (MMD):基于核的分布统计量
定义:MMD 利用再生核希尔伯特空间(RKHS)中的距离来度量两个分布的差异。对于线性核 $k(x, y) = x^\top y$,MMD 退化为均值向量的欧氏距离: \(\text{MMD}^2(\mathbb{P}, \mathbb{Q}) = \| \mathbb{E}_{X\sim\mathbb{P}}[X] - \mathbb{E}_{Y\sim\mathbb{Q}}[Y] \|_2^2.\) 直观理解:
- 它衡量的是两个分布在一阶矩(均值)上的偏差。
- 作为 $W_2$ 的补充,MMD 计算简单且对分布的整体偏移非常敏感。
3.1.4 3-NN 重叠率 (3-NN Overlap):几何一致性的试金石
定义:比较每个细胞在欧氏距离下的 3 个最近邻集合 $N_\text{euc}^{(3)}(i)$ 与在拉回测地距离下的 3 个最近邻集合 $N_\text{geo}^{(3)}(i)$ 的重合度: \(\text{Overlap}_3 = \frac{1}{N} \sum_{i=1}^N \frac{|N_\text{euc}^{(3)}(i) \cap N_\text{geo}^{(3)}(i)|}{3}.\) 直观理解:
- 取值范围:$[0, 1]$。1 表示完全重合,0 表示完全不相关。
- 核心意义:如果 Overlap 很高,说明欧氏几何忠实地反映了数据的内蕴几何。这是 FlatVI 是否成功的直接证据——如果 FlatVI 真的把空间拉平了,那么欧氏近邻就应该等于测地近邻。
3.1.5 VoR 与条件数 (CN):平坦性与各向同性的量化
这两个指标直接量化拉回度量矩阵 $M(z)$ 的性质:
VoR (Variance of Riemannian Metric):度量 $M(z)$ 随位置 $z$ 变化的剧烈程度。 \(\text{VoR} = \mathbb{E}_{z} [ \| M(z) - \bar{M} \|_F^2 ].\) VoR 越低,说明空间越平坦(Spatially Homogeneous)。
条件数 (Condition Number, CN):度量 $M(z)$ 在某一点处的各向异性。 \(\text{CN}(z) = \frac{\lambda_{\max}(M(z))}{\lambda_{\min}(M(z))}.\) CN 接近 1,说明空间是各向同性(Isotropic)的,即各个方向的尺度一致。
在本文中的作用:
- 它们是验证 FlatVI 几何正则化效果的“物理探针”。我们期望随着正则化强度 $\lambda$ 增加,VoR 和 CN 显著下降。
3.1.6 速度一致性 (Velocity Concordance):动力学的平滑性
定义:衡量每个细胞的速度向量 $v_i$ 与其邻域平均速度 $\bar{v}_i$ 的方向一致性(余弦相似度): \(\text{VC} = \frac{1}{N} \sum_{i=1}^N \frac{\langle v_i, \bar{v}_i \rangle}{\|v_i\|_2 \|\bar{v}_i\|_2}.\) 直观理解:
- 高 VC:细胞群体的运动像层流(Laminar Flow),井然有序,易于解释。
- 低 VC:运动像湍流(Turbulence),杂乱无章,通常意味着模型学到了噪声而非信号。
3.1.7 终端状态数与 PCA 解释率:生物学可解释性
- 终端状态 (Terminal States):利用 CellRank 在学习到的速度场上进行随机游走,识别出的宏观终点(Macro-states)。理想情况下,这应与已知的生物学谱系(Lineages)数量一致。
- PCA 方差解释率 (EVR):潜在空间前 $k$ 个主成分解释的方差比例。更高的 EVR 意味着信息更集中,潜在流形更“展开”而非卷曲,通常对应更好的可视化效果和更清晰的生物学结构。
3.2 合成数据实验:几何扁平化 vs. 重建质量
在第 5.1 节,作者首先在一个受控的合成环境(10 维 NB 分布,3 种细胞类型)中验证 FlatVI 的核心假设。实验设计旨在探究正则化强度 $\lambda$ 对模型行为的影响。
关键发现:
- 几何确实变平了:随着 $\lambda$ 增加,VoR 和 CN 均显著下降。这证实了 $L_{\text{flat}}$ 有效地抑制了拉回度量的曲率和各向异性,使潜在空间逼近欧氏空间。
- 欧氏近邻变得可靠:3-NN Overlap 随着 $\lambda$ 增加而上升,表明在正则化后的空间中,欧氏距离定义的邻域结构与真实的统计流形几何趋于一致。
- 重建质量的 Trade-off:在 $\lambda \le 5$ 的范围内,NB 参数的重建误差(MSE)几乎保持不变;但当 $\lambda$ 过大(如 $\lambda=10$)时,重建误差开始上升。这提示我们,适度的几何正则化可以在不牺牲表示能力的前提下改善几何性质,但过度正则化会破坏模型对数据统计特征的捕捉。
3.3 真实数据轨迹重建:EB 与 MEF 数据集
在第 5.2 节,作者转向真实的时间分辨单细胞数据(EB 发育与 MEF 重编程),核心任务是流形插值(Manifold Interpolation)。
实验设置:
- 任务:训练时仅使用起始点 $t_0$ 和终点 $t_1$ 的数据,遮蔽中间时间点。
- 模型:在不同 VAE(NB-VAE, GAE, FlatVI)的潜在空间上训练 OT-CFM,学习从 $t_0$ 到 $t_1$ 的向量场。
- 推断:利用学到的向量场推断中间时间点的细胞状态,并与真实被遮蔽的数据进行比较。
结果分析:
- Latent 空间的一致性:FlatVI 在 $W_2$ 和 Average L2 指标上均优于 NB-VAE 和 GAE。这说明在 FlatVI 的潜在空间中,OT-CFM 规划的直线(或近直线)路径更准确地穿过了真实的中间状态。
- 基因空间的保真度:解码回基因空间后,FlatVI 生成的分布在 $W_2$ 和 MMD 上依然最低。这证明了“潜在空间变平”带来的收益成功传导回了原始数据空间——更好的潜在几何带来了更符合生物学真实的基因表达轨迹。
3.4 动力学推断:Pancreas 数据集上的 CellRank 分析
在第 5.3 节,作者进一步考察了 FlatVI 对细胞命运决定(Lineage Fate Decision)分析的影响。使用 Pancreas 内分泌发生数据集,作者在不同 VAE 的潜在空间上训练 OT-CFM,并利用 CellRank 分析学到的速度场。
关键结果:
- 终端状态(Terminal States)的恢复:
- 已知生物学事实:该系统存在 6 个 稳定的终端细胞类型。
- FlatVI:准确识别出了所有 6 个 终端状态。
- NB-VAE:识别出 5 个。
- GAE:仅识别出 4 个。 这表明 FlatVI 的潜在空间更好地保留了稀有谱系或细微的分化分支,使得向量场能够流向正确的终点。
- 速度场的一致性:
- FlatVI 在不同维度设置下均展现出更高的 Velocity Concordance。这意味着学到的向量场更加平滑、局部噪声更小,反映了更稳健的生物学调控过程。
3.5 可视化与插值质量
最后,作者通过定性分析进一步佐证了定量结果:
- PCA 结构:FlatVI 的潜在空间 PCA 显示出更清晰的谱系分离,且前几个主成分解释了更高的方差比例(EVR)。这说明几何正则化促使模型将主要的生物学变异(如分化时间轴)对齐到欧氏坐标轴上,实现了更高效的信息压缩。
- 解码插值:对比 FlatVI 的线性插值解码轨迹与 GAGA(一种基于神经 ODE 的测地线插值方法),FlatVI 在无需额外训练复杂 ODE 网络的情况下,生成了同样平滑且符合生物学预期的标记基因表达趋势。这突显了其“简单即有效”的优势。
4. 总结与思考:几何视角的双重奏
回顾 FM × scDynamics 系列,我们实际上见证了两种截然不同但互补的解决思路:
- 路线一:改几何,适应表示(Change Geometry)
- 代表作:MetricFM, VGFM
- 哲学:承认潜在空间是弯曲的,通过引入黎曼度量或最优传输成本,设计复杂的算法在弯曲空间中寻找正确的路径。
- 优点:尊重表示模型的原始结构,理论上限高。
- 缺点:计算复杂,路径推断通常需要求解微分方程或昂贵的优化问题。
- 路线二:改表示,适应算法(Change Representation)
- 代表作:FlatVI
- 哲学:既然下游算法(如 OT-CFM)喜欢欧氏空间,那我就强制把潜在空间“拉平”。
- 优点:下游任务变得极其简单高效(直线插值、标准 OT),完全兼容现有的欧氏工具箱。
- 缺点:强行施加欧氏约束可能不适用于拓扑极度复杂(如高维环面)的数据流形。
FlatVI 的成功有力地证明了路线二的可行性与潜力。它提醒我们,在设计复杂的动力学模型之前,不妨先审视一下我们的“地基”——表示空间。有时候,一个几何性质良好的 Embedding,比一个复杂的向量场模型更能事半功倍。
未来展望: 最令人兴奋的前景或许在于两者的结合。我们可以想象一个“混合系统”:利用 FlatVI 作为一个良好的初始化或正则化项,消除大部分的几何畸变;然后在剩余的局部弯曲结构上,应用轻量级的 MetricFM 进行微调。这种结合有望在计算效率与生物学保真度之间达到新的最优平衡。
局限性提示: 虽然 FlatVI 效果显著,但作者也诚恳地指出,强制的全局平坦性是一个很强的假设。对于细胞周期(Cell Cycle)等本质上是圆环(非欧)拓扑的过程,欧氏空间的强行嵌入可能会引入拓扑撕裂。在处理此类数据时,选择合适的流形先验(如圆环面 VAE)可能比强行拉平更为明智。 ```
