Tempo:一种用于单细胞转录组学中昼夜节律推断的无监督贝叶斯算法

CDA老师1

# Tempo:一种用于单细胞转录组学中昼夜节律推断的无监督贝叶斯算法 **痛点:** 生物时钟是一种调节人体生理机能的24小时细胞计时机制。回答昼夜节律是生物学中的几个基本问题,需要联合测量单细胞昼夜节律阶段和转录组。然而,这种目的的实现之前不存在广泛通用的实验方法。 虽然可以通过计算算法可以直接从单细胞RNA测序数据推断细胞相位,但是现有方法产生较差的昼夜节律相位估计,为了满足这种需求,本杰明.J.奥尔巴赫博士的团队开发了一种Tempo机器学习算法,这是一种贝叶斯分类推理算法,它结合了时钟领域知识并量化了昼夜规律相位估计的不确定性。经过对真实数据的模拟和分析,该团队证明Tempo比现有的方法能产生更准确的昼夜相位估计,并提供校准不确定性的量化,Tempo将促进单细胞昼夜节律转录的大规模研究。 **场景:** 生物技术里单细胞昼夜节律转录的量化研究。 ## 简介 生物钟是一种24小时计时机制,几乎存在于人类的每个细胞中。细胞时钟的时间,成为昼夜节律阶段,由时钟组成基因(称为时钟或核心时钟基因)的mRNA和蛋白质浓度决定,时钟基因组织在一个转录-翻译反馈回路中,使细胞能够维持时钟基因mRNA浓度的自我维持24小时活动。时钟基因蛋白还与细胞类型特异性调节因子互相作用,以驱动称为时钟控制基因(CCG)的基因的节律性转录。部分是通过这些CCG,生物钟产生的有节律的细胞行为,例如肝细胞糖生成的节律和血管平滑肌细胞(SMC)的收缩力,虽然是自我维持的,但生物时钟还依赖于环境条件,称为zeitgebers(例如,光),通过称为“entrainment“的过程更新和优化其时间。 时间生物学中的许多悬而未决的问题需要借助单细胞的研究,例如细胞类型特异性CCG的识别以及昼夜节律阶段在门控细胞活动决定的作用。随着基于液滴的单细胞RNA测序(scRNA-seq)以高通量测量全基因单细胞转录组,它以成为研究许多此类问题的有吸引力的工具,现有的时钟sc RNA-seq研究依赖于世界过程设计,其中细胞时钟被假定被外部节奏刺激所夹带,例如光。假设细胞时钟完全同步,则刺激周期内的采样时间可以直接代表样品中所有细胞的昼夜节律相位。然而,这是一个限制性假设,因为先前的研究表明,细胞昼夜节律阶段在体内同一组织内可能相差几个小时,并且由空间位置等生物学变量决定。此外,时间生物学家可能有需求在没有时间线索的情况下研究细胞的昼夜转录规律(例如,培养皿中的不同步细胞)。打破这一假设需要对昼夜节律进行单细胞测量。一种方法是直接从基因表达中估计细胞昼夜节律相位,这一任务成为无监督相位推断。 进行细胞周期分析的无监督相位推断的类似任务开发了几种算法,然而,昼夜节律周期和细胞周期在两个显着的方面不同。首先,虽然已知数百个“核心”基因会在细胞周期中振荡,其中许多是高度表达的,但核心生物钟仅由约20个中度表达的基因组成,其次,-100-1000个CCG在昼夜周期中以细胞类型特异性方式振荡,这些基因的身份提前未知。由于昼夜节律基因的适度表达和识别CC G的挑战,现有的无监督相位推断方法在负责昼夜节律周期内对细胞进行排序时表现不佳,因此,在scRNA-seq中估计昼夜节律相位的最佳方法应该从头识别CCG,并将信息纳入相位估计。 现有的无监督相位推断方法主要是针对基于板的方法(例如,Fluidigm C1)生成的 scRNA-seq 数据开发的。相对于基于液滴的技术(例如,10X Genomics Chromium),基于板的方法倾向于捕获更少的细胞和每个细胞更多独特的转录本。因此,现有方法在应用于基于液滴的 scRNA-seq 数据时存在三个关键限制。首先,由于转录本似然分布选择不能接近基于液滴的 scRNA-seq 数据的真实生成分布,现有方法对细胞阶段的点估计很差。其次,现有方法没有量化相位估计的不确定性。这对于解释非常稀疏的基于液滴的 scRNA-seq 数据的结果至关重要。第三,现有方法的运行时间与细胞数量的比例很差,这使得基于液滴的 scRNA-seq 数据的分析对于许多应用来说是站不住脚的。 为了解决这些未满足的需求,该技术团队发了 Tempo,即一种贝叶斯变分推理方法,用于昼夜节律相位推理。Tempo 适用于基于液滴和基于板的 scRNA-seq 数据。Tempo 速度很快,可以结合领域知识,并为估计的昼夜节律阶段产生不确定性量化。使用具有真实情况的模拟数据和真实的 scRNA-seq 数据,我们证明了 Tempo 能够实现最先进的细胞相位点估计和经过良好校准的细胞相位不确定性量化。 ## 算法原理 Tempo算法假设细胞i中第j个基因的转录计数,Xij服从负二项分布。假定转录物计数的平均比例遵循24小时正弦波形,其基因表达参数被假定为所有细胞共享。因此,细胞*i*中基因*j*的转录计数的平均值受两个因素的影响:(1)基因特异性参数Bj,描述正弦曲线的形状 (2)细胞的昼夜节律阶段鉴于观察到的数据**X**,以及所有细胞和基因参数的先验概率P(θ,β),我们寻求细胞和基因参数的后验分布,即P(θ,β|X),然而,一个不知道其解析式的分布求后验概率是很难的,并且使用采样技术进行估计在计算上也是困难的。对于计算效率高的解决方案,Tempo 提出了一个近似的后验分布q(θ,β),具有描述其形状的可微参数。Tempo估计真实的后验概率P(θ,β|X),通过最大化其与近似后验的相似性q(θ,β),通过两步迭代过程(图1)。作为输入,Tempo 需要观察到的数据X, 先验知识P(θ,β),以及核心时钟基因列表。Tempo 使用这些信息来初始化一个循环基因列表,其中仅包括初始化时的核心时钟基因,以及近似的后验,q(θ,β)。近似后验q(θ,β)公式化使得只有循环基因为细胞阶段的近似后验估计贡献信息。在第1步中,Tempo 使得q(θ,β)最小化其 Kullback-Leibler (KL),发散的P(θ,β|X)仅使用来自当前循环基因的信息。在这一步之后,q(𝜽,𝜷)相对于𝜽的边际值可以被认为是基于当前周期基因的细胞昼夜节律后相分布的粗略估计。在步骤2中,Tempo使用来自步骤1的细胞期后验分布来识别从头循环器。对于当前未被鉴定为循环基因的一组基因,拟合近似基因参数分布,以步骤1中的细胞期后验分布为条件。然后,Tempo选择从头循环基因作为相位变化最能描述的基因,并将它们添加到当前的循环基因。重复步骤1和2,直到核心时钟基因贝叶斯证据恶化或超过最大迭代次数。算法的最终结果是优化后的近似联合后验分布q(θ,β),其中包含有关后细胞阶段和一组已识别的从头循环基因的信息。 ![image.png](/z_anli/upload/pgc/202212/14b2a2c6386d5bb6ee2c40fd706c2374.png) 图1:Tempo模型概览 图1中,作为输入,用户提供细胞转录计数矩阵、循环基因列表(例如,生物钟基因)以及有关细胞和基因参数的先验知识。使用用户指定的循环基因、计数数据和先验知识,在步骤 1 中,Tempo 计算细胞昼夜节律阶段的近似后验分布。使用这些,在第 2 步中,Tempo 识别具有转录计数的从头循环基因,这些转录计数可以通过昼夜节律变化得到很好的解释。Tempo 重复第 1 步和第 2 步,直到用户提供的循环基因(例如,生物钟基因)的贝叶斯证据相对于算法的先前迭代恶化或比随机更差。源数据作为源数据文件提供。 ## 便于理解需要补充的知识 ### 似然模型 作为输入,Tempo 需要一个n p转录计数矩阵X,其中n是细胞数,p是基因数。对于单元格i中的基因j,UMI 计数被假设为遵循负二项式 (NB) 分布。细胞i中基因j的转录本的预期对数比例 log由具有四个参数的正弦曲线定义: 1:中值Uj,它是控制基因在昼夜周期中的比例的平均值, 2:幅度Aj,是基因在昼夜节律周期中与中体的比例的最大偏差 3:预期φj,基因在昼夜节律周期中比例的峰值时间 4:Qj,一个指标,描述基因是否具有非零振幅。 Xij的分布被定义为: ![image.png](/z_anli/upload/pgc/202212/8f8066a38ed287f84b2e7444336e1dc4.png) 其中其随机变量的期望和方差是: ![image.png](/z_anli/upload/pgc/202212/9752925bb29f931e7d13c4d4b1cf89dd.png) 我们对参数取对数: ![image.png](/z_anli/upload/pgc/202212/db5a521a49dc5a10b39c1356fff94e20.png) 其中g𝜻(𝜆𝑖𝑗)是一个由𝜻(所有细胞和基因共享)参数化的确定性多项式函数,描述了转录本比例𝜆𝑖𝑗和分散𝛿𝑖𝑗之间的关系。关于𝜻估算的详细信息可以在补充方法中找到。 ### 具备基因和细胞参数的先验知识 关于细胞阶段的先验知识可能是已知的(例如,基于单细胞时钟基因报告或细胞收集时间);在这种情况下,用户可以将细胞i相位的先验知识指定为Von Mises分布(与正态分布类似的圆形分布): ![image.png](/z_anli/upload/pgc/202212/f11aa1a930d82abf05dc5fdafa261712.png) 在缺乏细胞相位先验知识的情况下,Tempo默认情况下为每个细胞相位使用非信息性的hyper球形Uniform26先验。 对于基因参数,关于基因j中闲的先验知识可以指定为正态分布: ![image.png](/z_anli/upload/pgc/202212/b1c0aea2f0454cbe96441df9317ba353.png) 在实践中,我们使用经验贝叶斯方法将𝜇(loc)𝑗设为每个基因转录本的对数比例。 关于基因j的过相位的先验知识可能存在(例如,从大量的生理转录组数据),在这种情况下,先验知识可以根据Von Mises分布来指定。在核心生物钟基因的情况下,先验知识通常是已知的。否则,默认情况下Tempo假定非信息超球形均匀先验。 该算法还要求用户指定一个参考基因,该基因的峰值时间定义了昼夜节律周期的开始。为了加强这一点,参考基因的先验超相分布被设置为一个以0弧度为中心的点质量。默认情况下,算法使用核心生物钟基因Arntl作为定义周期开始的参考基因。 关于基因j振幅的先验知识被指定为转换后的Beta分布: ![image.png](/z_anli/upload/pgc/202212/a56f9e7f97f031a14361c57a64a026d7.png) 其中 A(min) 和 A(max)表示可能的最小和最大振幅(所有基因共享)。默认情况下,Tempo设置Aj(α)=Aj(β)=1,它假设在可能的振幅值的域上有一个非信息的先验值。 关于基因j是否具有非零振幅的先验知识用层次贝塔-伯努利表示: 其中γj的样本表示具有非零振幅的基因的成功概率,用户指定Beta分布的形状参数。对于不属于用户指定的核心时钟基因列表的基因,Tempo默认设置γj(α)=γj(β)=1。 ### 近似后验概率 利用我们对细胞和基因参数的先验知识以及观察到的数据,我们寻求以下细胞和基因参数的联合后验分布: ![image.png](/z_anli/upload/pgc/202212/491a420c18ccd12ff3c321e2bb96938b.png) 其中𝜽是包含每个细胞的相位的n维向量,𝜷是包含每个基因的参数的p维向量,并且: ![image.png](/z_anli/upload/pgc/202212/5ac232b4065decd1c6d5dfc444a11629.png) ![image.png](/z_anli/upload/pgc/202212/683f47560bf6e20dbf89feede0bd7584.png) P(𝜽,𝜷|𝐗)没有已知的解析解。此外,渐近精确估计方法,如马尔可夫链蒙特卡洛和全网格采样,不能很好地扩展到可能包含数千(有时数万)个单元的基于液滴的scRNA-seq数据集。 ### 仅使用 24 小时正弦分量生成 scRNA-seq 数据 为了生成具有真实波形的模拟 scRNA-seq 数据,我们使用了 Zhang 等人生成的批量 RNA 阵列小鼠主动脉数据集。这种昼夜节律时间过程在 48 小时内每 2 小时对组织进行一次采样,因此非常适合以高保真度测量基因波形。 JTKCycle 在这些数据上运行24 小时,Benjamini-Hochberg q值<0.05 的基因被认为是真正的循环者;带有q的基因大于0.05 的值被认为是真正的扁平基因。在每个时间点内,计算每个基因的比例(即相对丰度)。对于真正的平坦基因,值被固定为所有时间点的中值,以随着时间的推移产生平坦的平均值。细胞库大小取自 log10 正态分布,平均 log10(5000)(即平均库大小为 5000 UMI)和标准偏差 0.5。然后从泊松分布中提取计数,其中预期值是基因的比例乘以文库大小。每个时间点总共模拟了 200 个细胞,产生了 4800 个模拟细胞和 19,065 个基因。这些模拟数据包含细胞相的基本事实。 作为时间信号的一般测量,对于每个基因,我们计算了它们在平坦波形上的波形的似然比检验统计量 (LRT)。LRT 在所有真正的循环仪上的分布可以在图 6a中查看。 为了计算每个基因的 24 小时正弦分量的强度,在每个时间点对大量基因比例运行快速傅里叶变换 (FFT)。每个基因的 24 小时正弦分量的强度被测量为 24 小时正弦分量的幅度相对于所有正弦分量幅度之和的比率。我们将此指标称为昼夜 FFT 分数。所有真实循环仪的昼夜 FFT 比率分布 ## 对模拟数据的Temp评估 我们首先评估了 Tempo 在从Tempo 的负二项计数模型生成的模拟 scRNA-seq 数据上的性能,其中正弦基因参数(包括中值、幅度和顶相)是从明暗循环时间过程 scRNA-seq 数据集估计的。该方法用于模拟从单个非同步细胞样本或从在 24 小时明暗循环时间过程中每 4 小时采样一次的细胞(即 ZT0、ZT6、ZT12 和 ZT18)收集的scRNA-seq 数据集。有关用于模拟的基因参数估计和生成模型的详细信息,请参见方法。 使用这些模拟的 scRNA-seq 数据,我们首先确定 Tempo 在仅考虑核心时钟基因作为输入时是否可以准确估计昼夜节律相位。Tempo 是在细胞阶段使用非信息性先验运行的。为了模拟信息丰富但不完美的基因先验,核心时钟前相先验位置偏离了它们的真实值。位移来自标准正态分布,按2×12/π(即2小时的标准偏差),并添加到真实的顶相值以产生顶相先验位置。Von Mises 分布的先前时钟 acrophase 比例被设置为使得围绕先前 acrophase 位置的 95% 间隔的宽度为 4 小时。细胞相点估计误差可视化为经验累积分布函数 (eCDF)。对于非同步数据集和时间进程数据集,以及在广泛的细胞数量(500-5000 个细胞)和文库大小(3000-20,000 个中值唯一分子标识符 (UMI))中,Tempo 产生的点估计误差 eCDF 比最佳值略差(图2a和补充图1-9a)。通过使用真实生成模型作为似然模型计算最大似然阶段并考虑所有真实循环基因作为输入并将基因参数设置为其真实值来获得最优值。为了比较,我们使用现有的无监督相位推断方法分析了模拟数据,这些方法具有适用于基于液滴的 scRNA-seq、Cyclops和Cyclum的运行时间特征。Cyclops 和 Cyclum 是自动编码器神经网络方法,旨在找到最大化数据可能性的圆形投影。虽然 Cyclops 和 Cyclum 在概念上有相似之处,但 Cyclum 使用单个基因的转换计数作为输入,而 Cyclops 使用基因的主要成分作为输入。作为基线,我们还包括PCA。其目的是找到数据的正交线性投影(即主成分),使其可能性最大化。使用解释数据中最大变化的两个主成分,假设这个二维空间中的点位于一个圆上,可以估计细胞阶段。为了评估特征选择的效果,使用两个不同的输入基因集运行竞争方法:首先,仅使用核心生物钟基因,其次,使用具有假体UMI比例的所有基因,即相对丰度大于![](file:///C:/Users/71564/AppData/Local/Temp/msohtmlclip1/01/clip_image056.gif).这些竞争方法通常会产生非随机性能,但对于具有较小库大小的数据,性能会明显下降。作为额外的基线,我们还将不同的方法与两种简单的方法进行了比较:(1)从圆形均匀分布中绘制细胞相,(2)从单点绘制细胞相。 ![image.png](/z_anli/upload/pgc/202212/36ef47d513a615cd7edef1af5ce01224.png) 图 2:在CT0、CT6、CT12 和 CT18收集的1000个细胞的模拟 scRNA-seq 数据集的结果,平均库大小为 10,000 UMI。 图2中,**a表示**每种方法的细胞相位点估计误差的经验累积分布函数 (eCDF),其中所有方法均使用真正的核心时钟基因作为输入运行。**b**使用真正的核心时钟基因作为输入运行时校准 Tempo 的不确定性估计。**c** Tempo 的从头循环仪检测程序。*x*轴表示给定基因的具有非零振幅的样本的最大后验 (MAP) 分数,并捕获基因是否更好地通过昼夜周期内的正弦或平坦变化来描述。*y* _轴统计量测量基因的 MAP 幅度与其预期 MAP 幅度的偏差,给定其 MAP 中值,以 Pearson 残差的形式报告。大的正值表明一个基因的振幅比给定其介体的预期更大。Pearson 残差计算的详细信息可以在补充方法 [8](https://www.nature.com/articles/s41467-022-34185-w#MOESM1)中查看。**d** eCDF 方法细胞阶段点估计的误差,其中方法运行时考虑所有基因作为输入。**e**在将所有基因作为输入运行时校准 Tempo 的不确定性估计。**F**方法稳定性分析。方法在数据集上运行五次(考虑所有基因作为输入)。计算每个细胞的预测的循环标准偏差并将其可视化为分布。源数据作为源数据文件提供。 我们进一步探讨了仅使用核心时钟基因与 Tempo 相位估计相关的不确定性量化是否得到了很好的校准。我们评估了近似后验可信区间的置信度与包含真实细胞相的相应区间分数之间的关系。使用最高密度区域方法22计算可信区间。令人鼓舞的是,这种分析(图 2b和补充图 1-9b)表明Tempo的不确定性量化对于非同步和时间过程数据都经过了很好的校准。Tempo 的可信区间略微保守,这反映了基因参数中不确定性的传播。 鉴于 Tempo 可以仅从核心时钟基因估计细胞相位,我们接下来评估了从头循环仪检测的可行性以及从头循环仪改善细胞相位点估计的潜在用途。Tempo 在模拟数据集上运行,考虑所有基因作为输入,以便可以检测从头循环器并将其包含到细胞期估计中。为了比较,运行 Cyclops、Cyclum 和 PCA 时考虑所有基因作为输入。对于非同步和时间进程数据集,以及在一系列模拟设置中,Tempo 识别出具有高特异性和敏感性的从头循环基因(图 2c和补充图 1-9c)。值得注意的是,将 de novo 循环仪与核心时钟基因结合可以改善细胞相位点估计(图 2)。 2d和补充图。 1 - 9d)。相比之下,当考虑所有基因作为输入时,竞争方法在点估计方面没有显着改善。当结合 de novo 循环仪时,相位不确定性保持良好校准,尽管更加保守(图 2e和补充图 1-9e)。这表明从头循环仪检测可以成为昼夜节律相位估计的有价值的工具。 我们进一步评估了 Tempo 预测的稳定性。由于计算细胞相位估计和从头循环仪检测的目标函数所需的采样,Tempo 的结果是随机的。验证用于计算目标函数的默认样本数量是否能产生稳定的结果至关重要。为了评估方法的稳定性,方法在同一个模拟数据集上运行了多次。对于每种方法,计算所有细胞的循环标准偏差(以小时为单位)并将其可视化为分布。为了比较,还通过从圆形均匀分布中随机抽取细胞相来计算圆形标准偏差分布。对于评估稳定性的所有模拟设置,Tempo 的中值循环标准偏差小于 1 小时(图 2f和补充图。 1 f、2 f 和7f )。值得注意的是,Cyclum 和 Cyclops 对所评估的模拟设置产生了高度不稳定的结果。 最后,我们评估了 Tempo 对纯 24 小时分量正弦波形的假设如何影响其在具有更真实波形的模拟数据上的性能。为了评估这一点,使用来自 Zhang 等人 48 小时内每 2 小时采样一次的大主动脉昼夜节律时间过程 RNA 微阵列数据集的波形生成模拟数据。23 . JTKCycle 24在这些数据上运行,固定周期为 24 小时,Benjamini-Hochberg q值 <0.05 的基因被认为是真正的阳性循环仪。总共模拟了 4800 个细胞,库大小中位数为 5000 个 UMI。作为每个基因时间信号的一般测量,我们计算了真实波形与平坦波形的似然比(图 3a)。此外,对于每个真正的循环基因,我们计算了 24 小时正弦分量相对于其他正弦分量的强度。我们将此指标称为昼夜 FFT 分数。有关模拟和分析的更多细节可以在方法中查看。我们的分析表明,核心生物钟基因的波形与纯 24 小时正弦曲线最相似(图 3b)。Tempo 基于核心时钟基因的相位点估计在使用其真实波形时基本不受影响,因为误差与理论最优值非常接近(图 3c)。此外,细胞相的不确定性仍然得到很好的校准(图 3d)。使用 de novo 循环仪检测运行 Tempo,Tempo 调用了 25 个 de novo 循环基因,所有这些都是真正的循环仪。被调用的从头循环器是具有最多时间信号的真正循环基因之一(图 3e)。与所有真正的循环仪相比,被称为从头循环仪的波形具有适度更强的 24 小时正弦分量(图 3f)。然而,与核心生物钟基因Dbp、Nr1d1和Arntl相比,被称为循环器的波形具有明显更少的纯 24 小时正弦分量。与检测到的循环基因具有相似时间强度的未检测到的循环基因表现出相似的纯 24 小时正弦成分(补充图 3g ))。这表明 Tempo 的 24 小时正弦分量假设可能不会强烈影响从头循环仪检测灵敏度。根据这些数据,从头循环仪的加入改善了 Tempo 的细胞相位点估计(图 3h)。例如,仅基于时钟,62% 的估计值位于真实细胞相位的 3 小时内;加入 de novo 循环仪后,这一比例提高到 72%。然而,与使用纯 24 小时分量正弦波形模拟的数据结果不同,这些数据的结果表明,结合 de novo 循环仪的 Tempo 点估计是次优的。结合 de novo 循环仪产生的不确定性估计值仍然经过良好校准(图 3i)。总之,这些结果表明 Tempo 对 24 小时分量正弦波形的假设对于从核心生物钟基因估计细胞相位和从头循环仪检测是合理的。然而,这个假设对于使用从头循环仪来改进相位估计是次优的。 ![image.png](/z_anli/upload/pgc/202212/5ea25311ff9feba9c2e8816e21a59b7b.png) 图3: 具有真实波形的模拟 scRNA-seq 的 Tempo 结果。 图3中,a是真实循环仪时间信号强度的分布,根据真实波形与平坦波形的似然比检验统计量 (LRT) 测量。b真实循环仪 24 小时正弦分量强度的分布,根据昼夜快速傅里叶变换 (FFT) 分数测量。c Tempo 细胞相位点估计误差的 eCDF 和d单独使用核心时钟基因运行时的不确定性校准。e从头循环仪时间信号强度分布。f被 Tempo 称为从头循环器的基因的 24 小时正弦分量强度分布。G循环仪时间强度和 24 小时正弦分量强度的双变量分布,用于检测或未检测为从头循环仪的真实循环仪。h eCDF 的 Tempo 细胞相位点估计误差和i使用核心时钟基因和从头循环仪运行时的不确定性校准。源数据作为源数据文件提供。 ## Tempo从真实的scRNA-seq数据中准确估计昼夜节律相位 虽然 Tempo 在模拟数据上的表现令人鼓舞,但 Tempo 的似然分布与模拟数据的生成分布完全匹配。从这个意义上说,Tempo 相对于其他方法的优越性能也许不足为奇。接下来,我们评估了 Tempo 的昼夜节律相位估计的质量是否可以推广到基于液滴的真实 scRNA-seq 数据。我们使用 10X Genomics Chromium 平台从小鼠主动脉(即 ZT0、ZT6、ZT12 和 ZT18)在 24 小时明暗循环中每 4 小时收集一次,生成深度测序的 scRNA-seq 数据集。这个高质量的数据集产生了 18,863 个血管 SMC、3135 个成纤维细胞、288 个内皮细胞和 287 个巨噬细胞,其中库大小分别为 13,646、7412、6846.5 和 7389 个 UMI。为了在该数据集上对 Tempo 进行基准测试,我们将其性能与 Cyclops、Cyclum、和 PCA。为了评估特征选择的效果,使用两个不同的输入基因集运行竞争方法:首先,仅使用核心生物钟基因,其次,使用所有基因(假体 UMI 比例大于 10−5 ) 评估是否包括从头循环仪有助于细胞相估计。Tempo 是在细胞阶段使用非信息性先验运行的。方法中提供了有关初始化核心时钟基因先验的其他详细信息。可以在图4和补充图中查看每个单独时间点的所得细胞阶段预测。 ![image.png](/z_anli/upload/pgc/202212/22ec826004e9bc64b326a1f14b67b953.png) 图 4:以 Zeitgeiber 时间 (ZT) 为单位报告的不同样本采集时间的主动脉 SMC 方法细胞期预测的密度。 Tempo的密度表示每个样本收集时间点的伪整体近似后验分布。竞争方法密度代表方法点估计。垂直红线表示给定样品收集时间的预期细胞阶段。a仅使用核心时钟基因运行时,方法细胞相位预测密度。b使用所有基因作为输入运行时的方法细胞相预测密度。源数据作为源数据文件提供。 作为一种诊断工具,Tempo 测量与估计参数相关的核心时钟表达式的贝叶斯证据。Tempo 将此相对于与在置换的核心时钟计数矩阵上估计的随机参数相关的证据进行比较,并通过它们的比率(也称为贝叶斯因子)总结对随机参数的改进。此过程的更多细节可以在补充方法 [6](https://www.nature.com/articles/s41467-022-34185-w#MOESM1)和[7](https://www.nature.com/articles/s41467-022-34185-w#MOESM1)中查看。贝叶斯因子大于 1 表示比随机的改进。这个诊断工具表明 Tempo 对这些数据的预测是高度非随机的。贝叶斯因子为 10 ^17,896^、 10 ^2257^、 10 ^110^和 10 ^184^分别用于 SMC、成纤维细胞、内皮细胞和巨噬细胞。 对于每种细胞类型,我们首先将单个细胞的昼夜节律相位点估计值与其在明暗循环中的样本收集阶段进行比较。两个阶段之间差异在所有细胞上的分布被可视化为eCDF(图 5a和补充图 14-20a)。对于所有细胞类型和输入基因组,Tempo 的点估计表明比我们分析的替代方法有实质性改进(表 1)。此外,在这些数据上,Tempo 展示了经过良好校准的不确定性(图 5b和补充图 14-20b) ,表明其不确定性量化是有意义的,可以帮助解释结果。 ![image.png](/z_anli/upload/pgc/202212/656431001412d070b037924232ef3f33.png) 图 5:明暗循环主动脉平滑肌细胞的方法结果(考虑所有基因作为输入)。 将明暗循环中的样本采集阶段视为真正的细胞昼夜节律阶段:a每种方法的细胞相位点估计误差的 eCDF,b Tempo 不确定性估计的校准。c样本核心时钟基因似然分析方法。LD 对应于将样本收集时间视为真正的细胞阶段。计算每种方法的样本外核心时钟可能性,并根据与随机均匀分布中的相位分配相关的可能性分布中值的标准偏差进行报告。d方法稳定性分析。每种方法在数据集上运行五次。计算每个细胞的预测的循环标准偏差并将其可视化为分布。e方法相对位移分析。每个点代表明暗循环中的一对样本采集时间(例如,所有六对可能的 ZT0、ZT6、ZT12、ZT18),并传达了一对时间点之间的预期相位差与实际相位差之间的关系每种方法的相位差。由于相位差是一个圆形随机变量,因此点位于y  =  x或y  = 24 -  x上的方法表示完美的性能。源数据作为源数据文件提供。 通过在每个数据集上运行每种方法五次来评估点估计的稳定性。对于每种方法,计算所有细胞的循环标准偏差(以小时为单位)并将其可视化为分布(图 5d和补充图 14-16d、17-22c)。为了比较,还通过从圆形均匀分布中随机抽取细胞相来计算圆形标准偏差分布。除主动脉内皮细胞外,所有数据集的 Tempo 中值循环标准偏差均小于 1 小时。对于内皮细胞,27% 的细胞具有 <1 小时的圆形标准偏差(补充图 23a)。具有较高后确定性的细胞比具有较低确定性的细胞具有更稳定的估计(补充图 23b)(补充图 23c ))。相对于 SMC 和成纤维细胞,内皮细胞的细胞数量要少得多(SMC、成纤维细胞和内皮细胞分别为 18,863、3135 个和 288 个细胞)。因此,Tempo 对内皮细胞的相对不稳定性可以部分由小细胞计数来解释。尽管如此,出乎意料的是,内皮细胞的预测比巨噬细胞的预测更不稳定,因为两种细胞类型的数据具有相似的技术特征。两种细胞类型的数据具有相似的细胞计数(内皮细胞和巨噬细胞分别为 288 和 287 个细胞)和库大小中位数(内皮细胞和巨噬细胞分别为 6846.5 和 7389 UMI)。进一步检查表明,两种细胞类型之间的稳定性差异可能是由于内皮细胞中较弱的核心生物钟表达所致。在较小部分的内皮细胞中检测到核心时钟基因转录物并且具有较小的假体均值,表明内皮细胞中较小的介体(补充图1)。 23d,e )。此外,时钟基因转录本表现出较小的标准偏差(补充图 23f),表明内皮细胞中的振幅较小。一般来说,Cyclop 和 Cyclum 的估计是不稳定的,它们的圆形标准偏差分布与许多细胞类型和输入基因组的圆形均匀分布有很大的重叠。然而,Cyclum 的稳定性明显依赖于数据集,因为它在主动脉 SMC 上表现出良好的稳定性。因此,Cyclum 的稳定性可能在很大程度上取决于数据集的特征和超参数的选择。 ### Tempo 从真实的 scRNA-seq 数据中识别从头循环基因 Tempo 为所有真实数据集调用了从头循环基因。对于真正的昼夜节律光暗循环数据集,主动脉 SMC、主动脉成纤维细胞、主动脉内皮细胞、主动脉巨噬细胞和肝肝细胞分别调用了 189、109、87、28 和 117 个从头循环仪。这些循环仪的质量通过两个标准进行评估。首先,对于每种细胞类型,我们运行 Tempo 的第 2 步,假设细胞阶段等于它们的样本收集阶段,并称为从头循环仪。当以完全无人监督的方式运行时,Tempo 的 de novo 循环仪应针对细胞阶段固定到其样品收集阶段时调用的循环仪进行富集。事实上,对于所有评估的细胞类型,从头循环仪都富集了这些循环仪(图 6a-e)。其次,我们期望从细胞类型中检测到的从头循环器富含从同一组织的大量数据集中检测到的循环基因。使用来自 Zhang 等人的大量主动脉和肝脏数据集。如图23所示,JTKCycle q值<0.05的基因被认为是真正的批量循环仪。观察到主动脉 SMC、主动脉成纤维细胞和肝肝细胞的强富集(图 6f-j)。虽然观察到主动脉巨噬细胞的富集程度较低(经验p值 = 0.1165),而主动脉内皮细胞没有富集(经验p值 = 0.6759),但这些细胞类型在组织中的比例低于 SMC 和成纤维细胞25. 因此,我们预计这些细胞类型与大主动脉结果的一致性较低。总之,这些结果表明 Tempo 可靠地识别了真实昼夜节律 scRNA-seq 数据中的从头循环基因。 图 6:称为从头循环仪富集的 Tempo。 图6中,当细胞阶段设置为a主动脉 SMC、b主动脉成纤维细胞、c主动脉内皮细胞、d主动脉巨噬细胞和e肝肝细胞的样本收集时间时,在所谓的循环仪中富集。大动脉 SMCs、g主动脉成纤维细胞、h主动脉内皮细胞、i主动脉巨噬细胞和j肝肝细胞的大容量循环仪富集(JTKCycle q值 <0.05) 。源数据作为源数据文件提供。 与其在仅具有 24 小时正弦分量的模拟数据上的表现相比,Tempo 更倾向于仅基于核心时钟基因的细胞相位估计,而不是那些包括所有真实明暗周期细胞类型数据集的从头循环器的细胞相位估计。虽然 Tempo 的 24 小时分量正弦假设足以识别 de novo 循环仪,但这些结果表明,该假设限制了结合 de novo 循环仪以改进相位估计。 ## 总结 尽管 Tempo 在无监督相位推断方面取得了一些进展,但未来仍有改进的机会。首先,从头循环仪不会改善真实 scRNA-seq 数据集中的点估计。虽然结合从头循环器改善了模拟数据中的点估计,但从头循环器减少了我们分析的真实 scRNA-seq 数据集中核心时钟表达的证据。我们的模拟分析表明,这可能部分归因于 CCG 的表达平均值在整个昼夜周期中遵循 24 小时正弦模式的假设。未来的努力可能依赖于可以对更灵活的 CCG 波形建模的方法。其次,我们的方法没有明确模拟技术效果对表达变化的贡献。虽然对于单样本非同步 scRNA-seq 数据的应用不太重要,这对于随着时间的推移作为多个样本收集的数据变得更加必要。最后,Tempo 假设所有输入单元共享正弦参数。尽管如此,参数(例如,基因幅度)可能会因输入细胞的亚群而异。作为一种贝叶斯方法,Tempo 自然地通过对基因和细胞参数估计中的额外方差进行建模来处理这种情况。然而,更理想的解决方案可能是使用函数将细胞状态的连续测量(即低维嵌入)映射到正弦参数。Tempo 自然地通过对基因和细胞参数估计中的额外方差进行建模来处理这种情况。然而,更理想的解决方案可能是使用函数将细胞状态的连续测量(即低维嵌入)映射到正弦参数。Tempo 自然地通过对基因和细胞参数估计中的额外方差进行建模来处理这种情况。然而,更理想的解决方案可能是使用函数将细胞状态的连续测量(即低维嵌入)映射到正弦参数。 虽然我们等待广泛的实验方法将单细胞时钟报告器与转录组学配对,但重要的是要记住,即使测量误差为零的时钟报告器也将包含由于时钟固有的随机性而导致的相位不确定性。因此,单细胞报告相位最好用作无监督相位推断算法(例如 Tempo)的先验知识。
0.0258 4 0 关注作者 收藏 2022-12-19   阅读量: 436

评论(0)


暂无数据