将有效检测!《自然—方法》:全基因组罕见变异一体化分析工具STAARpipeline
北京时间2022年10月27日, 美国哈佛大学林希虹传授团队在Nature Methods杂志上颁发了题为“A framework for detecting noncoding rare variant associations of large-scale whole-genome sequencing studies”的研究论文。
研究团队开发了大规模全基因组数据稀有变异联系关系性阐发东西STAARpipeline。STAARpipeline供给了针对海量全基因组测序数据的可扩展、乖巧和简化的稀有变异联系关系阐发框架,并实现了阐发流程主动化,包罗全基因组功用正文、常见变异和稀有变异联系关系阐发、前提阐发和阐发成果的汇总和可视化。
STAARpipeline进一步提出了多种非编码基因组中稀有变异阐发单元抉择的新办法,并通过STAAR办法整合了多组学功用正文数据,进一步提拔了稀有变异联系关系阐发的成效。
该研究为大规模全基因组数据供给了高效、高性能的阐发东西,有助于加快新药物标靶的发现和精准安康的研究。
近年来,跟着测序成本的大幅下降, 大规模的全基因组测序研究和生物样本库研究正在快速停顿,例如美国国度心肺血液研究所20万人的精准化医学研究方案,美国国度人类基因组研究所的35万的基因组测序方案,以及50万人的英国生物样本库。那些研究已经对上百万个全基因组停止了测序,并发现了近十亿个变异位点,此中稀有变异占比率超越了99%【1】。
近期研究表白稀有变异是复杂性状和疾病遗传力缺失的次要来源【2】。面对测序研究中骤增的海量稀有变异数据,一个关键挑战是欠缺全面、主动化、可扩展和高效的阐发软件和东西。另一个挑战是超越98%的遗传变异位于非编码基因组。虽然在评估编码稀有变异对复杂性状的影响方面获得了必然的停顿【3,4】,但长短编码稀有变异阐发仍存在较大的空白。因而,亟需针对基因组大数据中非编码稀有变异的统计阐发办法和软件,以发现人类疾病和表型的遗传构架,找到招致疾病的遗传变异位点,开发新的药物标靶。
针对那一难题,林希虹传授团队开发了大规模全基因组测序数据非编码稀有变异联系关系阐发东西STAARpipeline。STAARpipeline是一体化联系关系阐发流程,主动化停止基因型数据与功用正文集成、联系关系阐发以及成果汇总和可视化(图 1)。
展开全文
起首,STAARpipeline利用FAVOR数据库和FAVORannotator东西对全基因组数据停止功用正文【5】。
其次,STAARpipeline主动定义稀有变体集停止阐发,包罗基于功用性分类的以基因为中心的阐发(gene-centric *** ysis)和基于变异位置的非以基因为中心的阐发(non-gene-centric *** ysis)。关于以基因为中心的阐发,STAARpipeline 供给基于八种非编码功用类别集的稀有变异阐发。关于非以基因为中心的阐发,STAARpipeline供给了滑动窗口阐发和动态窗口阐发。比拟于典范的固定长度滑动窗口阐发,动态窗口阐发通过摘用数据自适应长度提拔了查验成效。
第三,STAARpipeline通过STAAR办法引进并整合了多组学功用正文数据【6】,进一步进步了查验成效。
最初,STAARpipeline操纵广义线性混合模子掌握人群构造和家系构造的稠浊影响,适用于包罗持续型和离散型表型在内多品种型的表型数据。STAARpipeline同时供给针对常见和低频变异的单体阐发,并针对编码基因组供给基于五种功用类别集的稀有变异阐发。
图1: STAARpipeline一体化联系关系阐发流程。
(1)输进数据,包罗基因型和表型数据。(2)利用 FAVORannotator 东西对全基因组数据停止功用正文;计算(稀少)遗传相关性矩阵。(3)非编码基因组稀有变异阐发,阐发单位包罗八个功用类别集、滑动窗口和动态窗口。(4)阐发成果汇总和可视化和前提阐发。
研究团队将STAARpipeline利用于TOPMed全基因组测序数据中,高效地阐发了40,000人的9种表型。值得重视的是,STAARpipeline在以基因为中心的非编码阐发中发现了 49个显着性联系关系,此中35个(71.4%)属于6个新的非编码功用类别集。动态窗口阐发在非编码基因组中检测到43个非堆叠的显着联系关系,比滑动窗口阐发多19.4%。那些成果表白,STAARpipeline是一个强大、资本高效且稳重的非编码稀有变异联系关系阐发东西,利用于大规模全基因组数据和生物库样本库数据。
林希虹传授和印第安纳大学医学院助理传授李子林为本文的配合通信做者,李子林助理传授与林希虹传授课题组博士后厉希豪为本文的配合第一做者。该工做得到了美国国度心肺血液研究所精准化医学研究方案和美国国度人类基因组研究所基因组测序方案的鼎力撑持。
相关论文信息:
参考文献:
1. Taliun, D. et al. Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program. Nature 590, 290-299 (2021).
2. Wainschtein, P. et al. Assessing the contribution of rare variants to complex trait heritability from whole-genome sequence data. Nature Genetics 54, 263-273 (2022).
3. Wang, Q. et al. Rare variant contribution to human disease in 281,104 UK Biobank exomes. Nature 597, 527-532 (2021).
4. Backman, J.D. et al. Exome sequencing and *** ysis of 454,787 UK Biobank participants. Nature 599, 628-634 (2021).
5. Zhou, H. et al. FAVOR: Functional Annotation of Variants Online Resource and Annotator for Variation across the Human Genome. bioRxiv (2022).
6. Li, X. et al. Dynamic incorporation of multiple in silico functional annotations empowers rare variant association *** ysis of large whole-genome sequencing studies at scale. Nature genetics 52, 969-983 (2020).