用户反馈

请留下您的宝贵意见,我们将为您提供更好的产品和服务。

问题或建议

请描述您的问题

联系方式(留下联系方式将更快获得反馈哦)

请留下您的联系方式

  • 账号密码登录
  • 手机动态登录
图形校验码
  • 企业登录
  • 开放单位登录
  • 个人注册
  • 企业注册
图形校验码

图形校验码
  • 重置密码

Dictys:基于单细胞多组学解析动态发育中的基因调控网络

2025-06-12 14:08:56

阅读(32)

  前言  

  细胞的身份与功能由基因调控网络(GRN)决定,但传统方法面临动态重连、反馈环路建模、单细胞噪声干扰等难题。尤其在发育过程中,GRN像一张不断变化的电路图,而现有工具只能拍“静态快照”,无法捕捉连续变化。Dictys应运而生!这款全新开源工具,利用单细胞多组学数据(scRNA-seq + scATAC-seq),像“基因调控时光机”一样,动态解析发育过程中的网络重连,登上《Nature Methods》封面!

  为什么需要基于多组学数据的基因调控网络推断工具?

基因调控网络(GRN)是细胞功能和身份的关键决定因素,并在发育和疾病过程中动态重连。尽管已有数十年的进展,GRN推断仍面临诸多挑战,包括动态重连、因果推断、反馈回路建模和上下文特异性。为了解决这些挑战,作者开发了Dictys,一种动态GRN推断和分析方法,利用染色质可及性和基因表达的多组学单细胞检测、特定上下文的转录因子(TF)足迹分析、随机过程网络和scRNA-seq读数的有效概率进行建模。Dictys提高了GRN重建的准确性和可重复性,并能够在不同发育背景下推断和比较上下文特定和动态的GRN。Dictys的网络分析在人类血液和小鼠皮肤发育中揭示了独特的分子调控机制,揭示了细胞类型特异性和动态的GRN。其动态网络可视化使得时间分辨的发育驱动TF及其调控靶标的发现和研究成为可能。Dictys作为一个免费、开源且用户友好的Python包提供。

现在就让我们一起来学习一下这个工具的主要功能。



  主要内容  

  1.从scRNA-seq和scATAC-seq中构建和分析特定动态的GRN

  Dictys为了为每组细胞重建特定上下游的基因调控网络,首先从伪批量或批量染色质可及性数据中推断出转录因子结合位点(即启动子和增强子)在调控区域的位置(图1a、b)。随后利用单细胞转录组数据(图1c)完善了这一初始的转录因子结合网络。Dictys包含一系列功能,用于理解和比较特定上下文的网络。

  通过识别每个转录因子(调控子)的目标基因集,可以基于已覆盖的网络量化该转录因子的调控活性,即目标基因数量。这与仅基于转录因子表达水平的基因水平分析形成对比,后者定义为每百万计数(CPM;图1d)。Dictys分析(伪)时间分辨动态基因调控网络,沿着提供的轨迹,Dictys首先定义一个移动窗口,将细胞子集分为重叠的小(~1,000个细胞)亚群,然后为每个亚群重建静态基因调控网络,并通过高斯核平滑重建动态基因调控网络(图1e)。利用动态基因调控网络,Dictys定义了每个转录因子随时间变化的调控活性曲线。随后,Dictys发现具有高度可变调控活性曲线的转录因子,这些曲线呈单调或瞬态模式,并对单个基因及其调控进行调查分析和动画展示,同时整合网络可视化(INV;图1d)。总之,Dictys提供了一个推理、可视化和分析框架,用于从单细胞转录组和染色质可及性谱中提供特定上下文和动态GRN,解决了现有方法在特定上下文、时间分辨率、反馈回路和单细胞检测噪声方面的几个局限性。

8.png

图1. 基于多组学构建GRN的设计

  2. Dictys在血液发育研究中大显身手

  为了展示Dictys在发育研究中的实用性,作者用一个包含健康供体33名骨髓单核细胞的scRNA-seq和scATAC-seq数据的人类血液数据集(图2a)。通过比较所有这些细胞类型的基因调控网络,Dictys识别出具有明确细胞类型特异性调控活性(即在靶标数量上过量)的调控标记转录因子,包括干细胞/祖细胞中的主要谱系定义转录因子(如HLF和GATA2)、红细胞中的GATA1、GATA2、TAL 1和KLF1 、单核细胞中的CEBPA 、 CEBPE和MAFB 、 B细胞中的SPIB和PAX (图2b)。此外,Dictys揭示了细胞类型特异性的调控程序。这些调控标记转录因子基于其最活跃的靶标(图2c)。这一分析揭示了表面标记物的调控(例如,红细胞中的GATA1-GYPC和KLF1-CD47,祖细胞中的MYCN-CD164等)以及其他细胞(红细胞中的GFI1B-E2F2)。以上结果表明细胞类型特异性的基因调控网络能够识别调控标记转录因子及其调控程序,而不仅仅是基于平均表达的分析。接下来将早期与晚期造血过程中基因调控网络进行对比,以解析每个转录因子的调控变化,这些变化基于差异调节和差异表达。尽管红细胞与祖细胞的两种差异分析都恢复了许多已知的转录因子,但具有红细胞特异性功能的几个转录因子表现出更强的调控作用。差异调控中的logFC值,如TFCP2和RREB1、HLTF、ZKSCAN3、NFE2L2等(图2d)。根据差异表达和差异调控的平均logFC进行整合转录因子排名可以提高排名质量 , 特别是对于在一个轴上表现较弱的已知转录因子(例如 TFCP2、NFE2L2和ZKSCAN3;图2e)。总之,差异调控可以识别出在差异表达中不可检测到的具有细胞类型特异性功能的转录因子,并为比较转录因子排名提供独立的信息。对于每个转录因子,Dictys还可以揭示其细胞类型特异性调控程序以及由转录因子结合到假定靶基因附近可及位点介导的潜在调控机制。在红细胞中,GATA1被发现调节红细胞特异性表达基因,如表面标记GYPC和编码核输出蛋白XPO7的基因(图2f)。这通过染色质构象和GATA1结合数据叠加在GYPC基因组位点上进行验证(图2g )。HLTF,一种已知的SWI/SNF染色质重塑因子,在急性髓系白血病中与基因组不稳定性有关,在红细胞中也表现出增强的调控活性(图2d,e),其显著影响的目标包括BCL11A和UBAC1(图2h,i)。上述分析可推广到其他造血谱系。综合来看,Dictys调控分析揭示了传统基于表达的分析中隐藏的已知和可能独特的造血机制。

9.png

图2. Dicys揭示了骨髓细胞类型特异性的GRN

  3.Dictys客串皮肤发育中的增强子“侦探”

  随后作者针对Dictys如何通过利用增强子-基因链接在单细胞水平上的优势进行研究,结合最近发表的scRNA-seq + scATAC-seq数据,改进GRN的推断。为此,作者分析了一个SHARE-seq数据集,该数据集描绘了小鼠皮肤发育24小时的情况(图3a)。利用这些多模态数据,作者将初始的转录因子结合网络限制在那些峰值染色质可及性和目标基因表达之间存在群体水平相关性的网络中(图1b)。Dictys识别出的调控标记转录因子与表达标记不同,如之前所述(图3b)。例如,基础表皮细胞与毛囊TAC-1细胞之间的差异调控分析揭示了已知但排名较低或具有相反效应的转录因子,例如Jund、Junb、Fos和Thrb(图3c)。这些转录因子在整合的转录因子排名中被列为更具有细胞类型特异性,而不仅仅是基于差异表达(图3d)。因此,Dictys可以与最近的多组学数据结合使用,并能利用scRNA-seq + scATAC-seq可及性利用关联来细化GRN推断。scRNA-seq + scATAC-seq关联还可以帮助优先识别和揭示那些原本隐藏的个体调控机制。然而,它们并不能提供关于可能结合到这些区域的潜在调控因子的信息,也无法说明这些调控因子在介导细胞类型特异性基因表达方面的调控强度。基于作者发现的调控子进行的网络分析为这一问题提供了解决方案,并允许优先识别峰-基因相互作用。例如,先前报道的Dlx3超级增强子存在于TAC-1细胞中但不在基底细胞中,编码提示潜在调控因子的DNA调控基序。通过转录组-染色质可及性关联对转录因子结合网络的改进,Dictys在TAC-1细胞中鉴定了14个假定的激活子和6个抑制子(图3e)。重要的是,Dictys能够解析这些调控连接背后的表观基因组信息,如Dlx3 mRNA相关的Sox9和Nfib足迹分别出现在增强子和启动子区域,而在基底细胞中则不存在(图3f)。总的来说,Dictys可以根据新的多模态数据和根据生物学重点定制初始TF结合网络的过滤器来改进GRN推断。

10.png

图3. Dicys使用皮肤来源的多组数据改进GRN网络推断

  4.性能碾压:Dictys在五大基准测试中全面领先

  由于金标准的完整性和正确性存在局限性和偏差,金标准与GRN推断先验知识之间的重叠,GRN稀疏性以及假设和问题表述的不同,因此,作者开发了五个基准测试来全面且定量地评估推断出的基因调控网络的质量,使用精确率-召回率(PR)曲线来评估每种方法在实际基因调控网络稀疏度下的性能,特别是在低召回率下的精确率(图4a)。用部分AUPR和F0.1分数(图4b、c)。虽然不同召回水平、细胞类型和评估场景下的方法性能有所差异,但Dictys在低召回率下的高精确率方面表现与现有方法相当或更优,且在低召回率下表现出色。性能可变性(图4a-d)。为了捕捉间接效应,作者使用了总效应基因调控网络进行比较,无论是作为每个转录因子转录速率变化的稳态效应,还是通过三步传播,如CellOracle中所述(图4e)。FIGR不估计总效应,因此作者比较了其调控得分。Dictys在P值、R2和验证的转录因子总效应调控程序数量方面表现出色(Q<0.1;图4f、g)。

  随后在细胞类型特异性和数据驱动的可重复性评估中,作者评估了特定细胞类型的可重复边的比例,这些边共同决定了比较网络分析的有效性。通过比较来自相同或不同细胞类型的非重叠细胞子集重建的基因调控网络(图4h),作者发现不同细胞类型之间的基因调控网络(以杰卡德指数衡量边重叠度)比同一细胞类型内的要相似。这在意料之中,因为基因调控网络在分化过程中会发生重连。此外,作者还发现,基因调控网络在更多细胞类型中更加相似。细胞因为额外的信息减少了推断的变异性(图4i )。因此,作者系统地将基因调控网络的相似性分解为线性模型中的细胞数量和细胞类型同一性的贡献,分别作为(数据驱动)可重复性和细胞类型特异性(图4j )。在这两个数据集中,Dicty比SCENIC、CellOracle和FigR更具可重复性和细胞类型特异性(图4k )。总之,系统基准测试表明,Dictys在某些情况下比现有方法具有可比的和优越的整体性能。

11.png

图4. 五项定量评估基准测试



GRN算法的未来与挑战

  基于本篇文章已经目前GRN算发的研究进展,我们接下来做一些总结:

  1. GRN 推断的未来发展方向

  1.1 多组学数据整合

  单一转录组数据推断 GRN 可能存在信息不足的问题,未来趋势是整合多组学数据:

  ●单细胞转录组(scRNA-seq)+ 表观遗传学(ATAC-seq/ChIP-seq):结合染色质可及性数据推断转录因子(TF)与靶基因的调控关系。

  ● 空间转录组(Spatial Transcriptomics):提供空间信息,推测基因调控的局部特性。

  ● 单细胞蛋白组学(CITE-seq):结合蛋白水平数据,提高调控关系的准确性。

  ● 代谢组学和表型数据:从功能层面验证基因调控网络。

  1.2 机器学习与深度学习驱动的 GRN 推断

  随着计算能力的提高,机器学习(ML)和深度学习(DL)方法正在逐渐取代传统的GRN构建方法:基于深度学习的时间序列建模(如 Transformer、RNN、LSTM):适用于研究动态基因调控关系。图神经网络(GNN):适用于构建大规模复杂生物网络。自监督学习:利用大量未标注数据训练模型,减少对先验知识的依赖。

  1.3 GRN与疾病研究结合

  肿瘤微环境中的GRN解析:解析癌症不同亚型的调控模式,识别潜在治疗靶点。免疫系统的GRN研究:探索免疫细胞的基因调控网络,有助于开发新型免疫疗法(如ICB)。药物响应预测:基于GRN推测药物对基因调控的影响,用于个性化医疗。

  1.4 计算效率优化

  大规模单细胞数据的GRN推断计算量巨大,未来发展方向包括:分布式计算与GPU加速:提高计算效率。压缩表示学习(Dimensionality Reduction):利用降维技术降低数据维度,提高模型的可解释性。优化并行算法:提升GRN构建速度。

  2. GRN 推断的主要挑战

  2.1 计算复杂度与数据规模

  单细胞测序数据的维度极高,直接计算所有基因间的调控关系是极具挑战性的。

  数据噪声大:测序数据的技术噪声和生物变异性使得GRN结果易受影响。

  2.2 真实网络的验证难度

  实验验证困难:推断出的GRN需要湿实验验证,而大规模的CRISPR/Cas9研究成本高、周期长。

  先验知识有限:现有的生物数据库(如TF-target关系)不完整,影响GRN的准确性。

  2.3 调控关系的方向性与因果推断

  相关性vs.因果性:传统的GRN方法大多基于统计相关性,而非因果关系。

  动态调控网络:细胞状态随时间变化,如何在不同时间点正确推断调控方向仍是难题。

  2.4 细胞异质性

  同一组织中的不同细胞类型可能具有不同的调控网络,如何在不同细胞群体中构建精准的GRN仍然是挑战。伪时间vs.真实时间:单细胞数据只能提供静态快照,如何正确推断时间动态仍需进一步优化。

  2.5 模型泛化性

  现有的GRN方法往往依赖于特定数据集,跨物种、跨组织或跨实验平台的泛化能力较差,需要开发更加稳健的推断算法。


  通过上面的解读,我们虽然感受到Dictys的强大之处,但是Dictys仍有很多优化的空间:如非线性调控与蛋白互作尚未整合。此外,基于单细胞多组学的数据都只是基于“可能性”的推断,如果想要判定一些调控网络的因果关系,我们需要更可靠的数据:如对特定基因进行干扰后的单细胞测序数据。因此,未来这一研究领域需要更多单细胞扰动数据的验证。目前开发的pertub-seq技术,一种在pooled基因干扰筛选基础上进行scRNA-seq,在未来可能为GRN推断研究注入强劲动力。

  寻因生物自主研发的SeekOne® DD单细胞ATAC + RNA多组学技术,与Dictys这类GRN推断工具形成了完美的技术闭环。该技术能够在同一细胞中同时检测染色质可及性和基因表达,实现了实现了真正意义上的“一胞双组”同步检测,在单细胞水平同时捕获染色质开放状态和基因表达谱,彻底解决了传统异源多组学数据难以对齐的难题,为GRN推断提供了高度一致的数据基础。寻因生物对多物种组织来源样本进行单细胞ATAC + RNA多组学测序,涉及组织包括(皮肤、胚胎、肝脏、唇腭裂、脑、脂肪、心脏、前列腺、胃、牙龈、角膜、黑色素瘤、肺脏等)。部分项目经验展示如下:

12.jpg

  SeekOne® DD单细胞ATAC + RNA多组学不仅能够精确识别活性调控元件(如增强子、启动子)与基因表达的协同变化,为转录因子-靶基因调控网络的验证提供了直接证据;而且其超高分辨率的检测能力可区分转录相似但表观异质的过渡态细胞,支持构建更精细的发育轨迹和转分化路径。通过将SeekOne® DD生成的高质量多组学数据作为Dictys的输入,研究者能够在单细胞分辨率下重建更准确的基因调控网络,为深入研究细胞异质性和复杂性提供了支持,使得多维度解析细胞发育、组织形成和疾病发生等生物学过程成为可能,必将推动生命科学研究迈向新的高度。

  总的来说,Dictys不仅是工具,更是理解生命动态的钥匙。从造血到皮肤发育,从基础研究到疾病治疗,当这样的先进分析工具与SeekOne® DD单细胞ATAC + RNA多组学技术这样的创新技术相结合时,必将为我们揭开更多基因调控的奥秘!

1749708325025019066.gif

参考文献:

Wang L, Trasanidis N, et al. Dictys: dynamic gene regulatory network dissects developmental continuum with single-cell multionics. Nat Methods (2023).

DOI: 10.1038/s41592-023-01971-3


来源:寻因生物SeeKGene公众号(原创)

版权声明

本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

您可能想看

  • 过去15年,我们建立了一个新的免疫学科学原理,有望应用于肿瘤治疗 | 邵峰院士

    过去15年,我们建立了一个新的免疫学科学原理,有望应用于肿瘤治疗 | 邵峰院士

    2023-12-28 01:29:50 阅读(23511)

  • 支持企业上市创新发展实施办法(试行)

    昌平区政策

    2024-02-27 15:13:46 阅读(1367)

  • 昌平区 《北京市工作居住证》办理指南

    昌平区政策

    2024-02-27 10:52:57 阅读(11678)

  • 昌平区招商引资中介服务机构奖励办法(试行)

    昌平区政策

    2024-02-27 16:22:38 阅读(123227)

  • 昌平区加快独角兽、专精特新企业培育发展支持办法

    昌平区政策

    2024-02-27 14:57:38 阅读(56183)