推医汇

首页 > 行业动态

遗传病的高通量测序检测

2023-11-23 19:27:45来源:基因谷
遗传病的高通量测序检测

临床基因组测序(clinical genomic sequencing, cGS)(也称为临床全基因组测序,“WGS”)是遗传性疾病可能的终极诊断检测,能够识别基因编码和非编码区域,以及基因间区域的序列变异、拷贝数变异、结构变异。这包括所有已知核基因、线粒体基因和人类白细胞抗原(HLA)区域的变异,尽管针对特定分析可能需要专门的分析流程。

 

临床医生通常会对小儿患者(包括新生儿重症监护病房的患者)进行cGS检测。cGS的诊断收益和临床实用性最初是在新生儿重症监护病房(NICU)患者中建立的,其诊断收益为43%,导致了管理变化,降低了住院费用(800,000至2,000,000美元)。对于这类指征,cGS越来越被视为一线诊断方法。同样,许多成年人,有时多年未能获得诊断,或者怀疑被误诊,通过cGS检测最终得到了诊断。cGS的应用范围实际上涵盖了遗传性疾病的所有范畴,包括发育、神经、肌肉、胃肠和免疫状况。对于对了解其疾病遗传风险感兴趣的健康成年人,“个人健康”或“选择性”cGS正变得越来越受欢迎。

 

适用于临床基因组测序 (cGS) 的特殊考虑因素

对于多年来一直寻求诊断的个体和家庭来说,他们渴望的答案可能蕴含于基因组中。在基因分析开始之前,设定适当的期望并确保患者提供知情同意是很重要的。在已知的20,000个人类基因中,目前只有大约三分之一的基因已知与已知疾病有关,而每天约有一个新的基因-疾病关联被建立。患者需要理解,由于对人类基因组及其功能的知识迅速增加但仍然非常不完整,基因检测可能产生具有或不具有管理和/或治疗影响的诊断结果,或产生模糊的结果,甚至可能没有信息含量的结果。当找不到可以解释临床的变异时,答案可能仍然存在于基因组中,但变异可能位于NGS测序难以检测到的区域(例如,重复区域或GC含量高的序列),或者位于目前无法在临床上解释的区域(例如,调控、内含子深处,或者由遗传和环境因素的组合引起(例如,一些自身免疫疾病)。基因发现还可能对患者亲属有意义,因此需要了解患者在允许通知亲属方面的同意,甚至可能需要了解是否已获得同意与亲属联系以阐明与患者相关的信息。最后,实验室需要了解患者对偶发性发现的意愿,以及是否同意报告任何此类发现。    

虽然大多数国家承认患者自主权利,但在检测合法同意的年龄方面可能存在差异。此外,关于知情同意是否可以口头给予,或者是否需要书面同意以及此同意是给予床医生还是实验室,可能存在监管上的差异。

 

样本

大多数样本使用静脉血,从样本的白细胞中提取检测的DNA。较新的采样技术更为无创,可以利用颊拭子或唾液样本中的DNA。从唾液和颊部样本中分离出的DNA通常产量和浓度较低,可能会影响测序质量。唾液和颊部标本中的微生物DNA将增加,这也将包含在生成的测序数据中。微生物DNA将与人类DNA竞争,可能导致人类序列的reads较低。质量指标可能需要根据不同的样本类型进行调整。尽管理论上可以使用其他样本(例如,头发、皮肤活检),但临床实验室可能无法收到足够数量的这类样本来验证多种样本类型。其他样本类型可能在足够高的DNA产量(即至少0.5毫克)上存在困难,从而具有更高的测序失败率。请注意,虽然在这些样本类型中生殖系基因组将相对不变,但一些遗传病变可能局限于特定的细胞系和组织(如肌肉活检)或来自尿液样本中获得的细胞(这可能比外周血样本更好地反映线粒体异质性)。    

 

测序

当前主导的测序平台是基于大规模并行的“短read”测序技术。这些技术使用通过基因组的随机片段化或基因组的随机或有针对性扩增准备的“文库”,两种方法都测序大小为100到500核苷酸的片段,然后重新组装成患者的假定完整基因组。大多数临床实验室随后直接使用这些文库进行测序,虽然一些实验室还使用PCR扩增步骤处理有限的DNA样本。使用无PCR的cGS需要高质量和数量的DNA。

在我们目前的知识中,发现绝大多数致病基因变异位于编码蛋白质的基因内;这一类基因(“外显子”)仅占总基因组的2%左右。如果假定患者致病基因变异位于这些编码基因中的一个,那么测序策略可以仅针对外显子,分析将使用cES(外显子测序)。如果不仅希望检查所有编码基因,而且还要保留在随后的分析中检查非编码基因或基因间区域的选择(如未发现致病编码变异),那么将进行cGS(全基因组测序)。

cGS比cES提供更多的分析选项。由于更好的覆盖均匀性,可以可靠地在低深度下检测到大的拷贝数变异(CNVs)。通过cGS进行CNV确定允许在其他现有平台不可能的分辨率下对CNV进行表征。这种CNV数据的“low pass”测序策略预计将成为发育迟缓等适应症的一线检测,甚至可能替代细胞遗传微阵列技术。

目前,由于测序目标大小的差异, cES比cGS更便宜。随后的cES数据存储和生物信息学分析同样更简单、更便宜。然而,由于文库构建中的固有方法偏差(称为“捕获”或“扩增”偏差),有必要以显著的冗余性(通常每个区域的“深度”约为60到100倍)对外显子进行测序。相反,cGS测序偏差较小,基因组覆盖均匀性更好,意味着只需30倍的测序深度就足以实现足够的诊断灵敏度。    

 

生物信息学

进行临床基因组分析所需的数据文件很大:对于cGS(30倍测序深度),需要超过200 GB的空间来存储关键文件(FASTQ、BAM和VCF),而cES文件较小(在30到50 GB之间,具体取决于深度)。这样大小的文件可能需要特殊处理;计算机网络需要具有足够的容量来传输它们,并且需要特殊的错误检测和纠正协议来确认文件的完整和准确复制。备份和存储系统还必须具有足够的容量,尤其是因为监管和认证机构可能要求保留这些数据指定的较长时间,通常以多年计算。

最广泛使用的生物信息学算法(Genome  Analysis  Toolkit/Best  Practices  workflow [https://gatk.broadinstitute.org/hc/en-us])旨在检测单核苷酸变异(SNVs)和小插入/缺失(indels),其大小可达20核苷酸,这些流程和协议相对成熟和稳定,对于indels的分析灵敏度通常超过95%,对于SNVs为99%。对于较大的结构变异(SVs)和拷贝数变异(CNVs),需要不同或补充的算法,而这一较新的领域仍在发展中,尚未就最佳算法达成共识。请注意,cGS对于CNV/SV的检测和分辨率通常比cES更好,因为cES在其序列覆盖中缺少大部分基因组:cES对于CNV的检测极限通常限于一个到两个外显子的大小,而cGS对于CNV的检测极限已经在临床验证中降低到500个核苷酸,诊断灵敏度超过95%,在研究环境中甚至可以低至50核苷酸,但诊断灵敏度较低。

基因组信息的存储可能需要实施额外的安全策略,以防止潜在的数据丢失或不当访问。例如,为了减轻或防止未经授权的访问(例如通过“黑客”),通常的做法是存储基因组时不包含任何个人身份信息(如姓名、出生日期、健康记录号等),并将这些个人身份信息分开存储在另外的计算机系统中。这样,对任一系统的未经授权的侵犯都不足以使基因组与患者的身份匹配。

文件类型和保留时间的存储政策可能在国家之间有所不同,并在一个国家的临床实验室之间也可能存在差异。由于其较小的文件大小,最终的临床报告和VCF文件可能可以无限期保存。BAM和FASTQ文件要大得多,临床实验室可能无法无限期存储这些文件。FASTQ和/或BAM文件通常保存数年。由于BAM和VCF文件可以从FASTQ文件重新生成,仅保留FASTQ文件可能是减少存储成本的一种策略,使用CRAM无损压缩格式存储FASTQ文件可能允许进一步节省空间。存储成本正在降低,符合个人健康信息(PHI)安全标准的基于云的计算可能允许长期存储。随着测序成本不断降低,未来的替代策略可能涉及患者DNA的长期存储,以便在技术改进的情况下进行将来的重新测序。

 

质量控制

首先对测序数据进行质量和覆盖度分析。临床实验室在检测方法开发期间建立其质量指标和验收标准,这些标准用于确保检测能够重复地达到或超过质量标准。已有验证NGS数据流程的指南。

首先要考虑批处理指标,审查所有一批测序的样本,以确保在运行级别没有影响下游分析的问题。虽然一些指标将表明一个样本可能需要进一步检测,其他指标是“仅监控”,用于月、半年或年度的质量控制统计,以寻找数据中的趋势。这些趋势可能表明试剂、测序流动池或其他在单独分析时可能难以发现的问题。

通常监测的特定样本指标包括测序、比对和变异统计。鉴于数据的复杂性和一些指标可能是特定于人群的,具有一个或两个异常值的样本可能有生物学原因,并且可能在重新测序样本时不会改变。因此,预期范围之外的个别指标不被视为失败。然而,任何多个指标超出预期范围的样本都应该进行调查。下表给出了一些指标的示例;请注意,这不是一个全面的列表,临床实验室可能会监控其他指标。   

 

基因组数据还可以用于检查样本混淆、污染和关联的可能性。尽管短串联重复(STR)检测更容易且更便宜确定身份、污染和亲缘关系,但如果对trios(患者及其父母)进行了测序,则基因组数据可以在不使用额外STR的情况下用于这些目的。与报告的患者性别相关的Y染色体特异性变异的相关性是确保样本完整性的简单首要检查。如果为了帮助解释对受影响的患者进行了父母和/或兄弟姐妹的检测,基因组数据还可以预测和确认家庭关系和家系谱系(父母-子女或兄弟姐妹)。一级亲属预计会共享50%的基因组,而二级亲属会共享25%。在报告新生变异时,评估亲缘关系尤为重要。关联分析可能会揭示同源性区域或其他怀疑近亲繁殖的偶发发现。实验室应该制定管理发现的任何不一致的政策。可从美国医学遗传学和基因组学学院(ACMG)等专业机构获取指导处理这些敏感问题的帮助。    

 

分析

医生希望找到患者出现症状的遗传原因。这意味着基因组分析将试图识别那些已知与患者症状和体征相关的潜在致病变异的基因。

在已有知识已经确定患者的病症可能由一组已知基因的变异引起的情况下,可以进行“virtual panel”检查(VPA)(https://panelapp.genomicsengland.co.uk)。这仅限制于涉及可能导致患者病症的那些基因。这种方法极大简化了所需的生物信息学分析和医学解释,还减少了“非靶标”或“偶然”发现所带来的混淆的风险。这种方法的缺点是,如果没有诊断性发现,仍然存在患者病因可能在其他一些尚未发现的基因疾病关联中的可能性。在这种情况下,可用cES或cGS分析。在患者的病症不符合已知的综合征模式或没有已知panel的情况下,直接进行cES或cGS分析更有意义。

虽然可以直接使用cES对样本进行分析,但另一种方法是进行cGS测序,但仅分析目前已知与疾病相关的基因的编码区域和外显子边界。如果没有发现变异,那么可能存在非编码区域、致病性调节区域或内含子深部变异。相关工具正在开发,以更好地预测这些变异的影响,其中许多目前具有未知意义。

 

解释

解释仍然是一个人工过程,需要高度的专业技能和判断力,尽管机器学习或人工智能方法可能有助于识别变异。生物信息学流程可以应用各种人群过滤器和数据库注释,以减少潜在的诊断变异数量。这种策略基于包括以下广泛原则的致病性变异:(1)它们在一般人群中不常见,(2)它们通常改变编码序列并损害翻译的基因产物,以及(3)它们可能已被先前报告和表征为致病性。不幸的是,这些策略仅能有效地将潜在变异的结果减少到一个较小(但仍然很大)的最终候选变异集,对于cES通常在几十到数百个变异的范围内,并且对于cGS更大。然后需要确定这些候选变异中的哪些位于可能与患者出现的症状相关的基因中。   

trios基因组促进了变异解释。将父母作为比较基因组可以快速识别一个隐性基因中的两个变异是否分别从双亲遗传或者从二者之一获得。对于在患者中存在但在任一父母中不存在的新发变异的过滤器在优先考虑变异方面也非常有效。新发变异特别是在编码区域之外的变异往往导致发育迟缓,功能表达分析已经扩展了对这种疾病机制的认识。

与cES和其他序列检测一样,cGS中识别的变异使用标准化方法进行评分,最广泛使用的是ACMG的方法。这个评分允许将变异分类为五个基于证据的类别,从致病性(ACMG 5级,对致病性有99%的置信度)和可能致病性(ACMG 4级,90%的置信度)到可能良性(ACMG 2级,90%的良性置信度)和良性(ACMG 1级,99%的良性置信度)。在我们目前的知识水平下,大量的候选变异,尤其是cGS覆盖的非编码区域,达不到被分配到任何这些等级的90%阈值,将被分类为不确定意义的变异(“VUS”或“VOUS”)(ACMG 3级)。因此,cGS数据最初类似于cES数据进行分析,主要评估编码区域。请注意,全球各地的实验室持续审查变异。这意味着在ACMG类别之间接近决策阈值的变异可能会随着时间的推移而被重新分类,可能接近或远离致病性。

ACMG指南旨在作为变异分类的第一步。其他旨在扩展或澄清ACMG指南以解释序列变异的努力包括ClinGen(https://clinicalgenome.org/),这是由国家人类基因组研究所(NHGRI)创立的资源。其目的是进一步定义基因和变异的临床相关性。他们为基因/疾病关联提供证据的努力对于由表型引导的cES和cGS分析至关重要。如果基因/疾病关联较弱,这些“不确定意义的基因”(GUS)可能不会包含在cGS或cES分析的结果中。    

已经开发了许多生物信息学工具,以协助变异的优先考虑和分类。例如包括:Broad Institute的Seqr,Agilent的Alissa,Fabric Genomics的Opal和Gem,Genoox的Franklin,以及Diploid(现为Invitae)的Moon。这些工具可能对其他工具和数据库进行元分析,以便分析员可以同时查看许多数据库和软件工具,并形成对变异可能致病性的看法。新工具还可以对患者的症状进行分类,并将其作图到人类疾病的结构图上(例如人类表型本体论,“HPO”[hpo.jax.org]),算法工具可以根据它们是可能的致病变异的可能性对候选变异进行优先排序(例如Exomiser,Genomiser,AMELIE)。这些工具在症状越具体时变得越有效。随着数据的增加,机器学习算法将得以继续改进。

 

报告

在分析和解释之后,将发布一份临床报告。cGS报告的格式和内容仍在发展中。cGS报告的要素和内容类似于其他遗传报告,并在ACMG测序panel标准中进行了概述。cGS报告可能非常复杂,特别是当涉及到非编码区域、次要或其他发现(如药物基因组或携带者状态)时。将cGS报告组织成易于非遗传专业人员阅读和理解的形式是具有挑战性的。应纳入并引用基因/疾病关联和变异的证据。

随着新的基因疾病关联和变异的发现和重新分类,定期重新分析会增加诊断产出。临床基因组报告仅在最终授权时才是正确的。在那一刻之后,重新分析可能更改诊断结论。基因组资源数据库中的新信息、变异的重新分类、现有疾病新症状或体征的呈现,甚至第二遗传疾病的发作都可能改变遗传诊断。 

目前还没有就由谁负责重新分析患者报告以纳入随时间推移的变化达成共识。一些实验室依赖于患者的临床医生请求重新分析,可能还伴随着从患者疾病进展中出现的新的临床信息。这种方法的优势在于,重新分析仅在患者及其医生同意下进行,并且不会使实验室承担重新分析的责任。另一种方法是实验室定期审查所有过去的报告。参考数据库和变异分类的变化会得到更新,并重新发布报告。这两种方法都适用于cES和cGS,对于cGS而言,重新分析的数量明显大于cES。

          

局限性

大规模并行测序(MPS)技术的局限性

在过去,使用MPS鉴定的基因组变异通常通过第二个独立的技术(如Sanger测序)进行“正交确认”。如今,MPS被广泛使用,许多实验室已经确定对于大多数SNV和插入/缺失(indels),在大多数情况下不需要进行正交确认,除非变异位于难以测序的基因组区域(例如,位于高G:C核苷酸含量或覆盖差的区域)。但对MPS鉴定的CNV和SV的正交确认仍然是标准做法。

 

短read测序的局限性

用于cGS/cES的标准短read测序技术不适用于:(1)测序具有短重复长度的高度重复区域,(2)包含可变长度扩展的区域,(3)重复长度大于库片段长度的150到500核苷酸,以及(4)一些具有极高G:C核苷酸含量的区域。测序这些区域可能需要补充或定向测序技术,使用长read测序(如Pacific-Bio或Oxford Nanopore),或使用“虚拟长read”测序。这些长read测序技术目前比标准的cES和cGS技术更昂贵。这些方法具有独特的优势(例如,更好地解析结构变异和重复区域,变异定相的能力,或者检测甲基化核苷酸的潜力)和缺点(例如,生成需要全新生物信息学工具分析的非常大的数据集,精度有限,尚不如短read测序准确)。   

嵌合

当个体中存在多个基因组时,即出现遗传嵌合体,会为cGS带来特殊挑战。cGS的样本通常被分析到一个大约30倍的均匀覆盖深度,而cES的样本则具有大约100倍的典型平均深度。30至100倍的覆盖深度意味着在个体的这些基因组混合物中,对嵌合体的阈值检测限制仅为1%到3%(在实际中更接近5%到10%)。这尤其可能在体细胞测序中成为问题,因为肿瘤样本可能包含正常和异常组织的混合物,并且在异常组织中可能存在多个克隆,具有多个变异。为了克服这一问题,可能需要极高的测序深度,在某些情况下,样本可能更适合具有目标基因变异的panel,而不是更广泛的cES或cGS测序。标准Sanger测序不能检测到低于20%的嵌合体,使得低水平嵌合体的正交确认变得困难。

 

参考基因组的种族特异性

由于大规模并行测序主要是在高加索人的国家开发的,因此“参考”基因组和相关的注释数据库是高加索人的。因此,其他祖源的患者具有与当前参考基因组中记录的频率不同的变异,使得标准基因组资源在评估变异的频率和致病性时不够准确。自从认识到这个问题以来,参考基因组数据库已经扩展以反映主要的种族和祖源人口,并且使用与种族相符的参考基因组和相关数据库正在变得越来越普遍。基于特定人群频率,这可能允许将不确定意义的变异重新分类为良性或可能良性。

 

人类基因组中的结构变异    

研究基因组中的结构变异(SVs)和拷贝数变异(CNVs)的能力揭示了这些类型的基因组变异比先前预计或认识到的要常见得多。参考基因组(直到最近的“37th build” GRCh37,也称为hg19已经更新为更新的版本(GRCh38或hg38)。最新版本具有更强大的功能,可以表示和描述这些结构变异。将这个最新的基因组构建引入临床诊断实践中滞后,主要是因为更新使用先前基因组构建开发的许多生物信息学程序和数据库的巨大任务,所有这些都需要类似地更新,然后进行验证。目前,根据提交给国际质量保证计划的材料(例如,[https://www.emqn.org]),大多数临床实验室仍在使用GRCh37,但向hg38的过渡已经开始,并且在接下来的几年内可能会迅速进行。

评估和验证通过MPS检测CNV的关键是具有已知缺失和重复的参考样本的可用性。国家标准与技术研究所(NIST)已确定了对于NA12878(Genome in a  Bottle)的缺失和重复具有高可信度的基准区域。

 

定相(Phasing)

当使用短read测序技术鉴定两个变异时,通常无法确定它们是否位于同一染色体等位基因上(“cis”),还是位于不同等位基因上(“trans”),除非它们恰好足够接近,以便它们都出现在一个单独的read中(即,距离约150个核苷酸)。有时,可以沿着连锁的SNP“走通”染色体,但SNP平均每千个核苷酸只发生一次,这通常不可行。

可能需要检测其他家庭成员以推断这两个变异是在cis还是trans位置上;这个过程称为“Phasing”。定相也可以通过前面提到的较新(但仍较昂贵)的长读长度或虚拟长读长度技术来确定。

 

当前挑战    

未诊断的孟德尔单基因病例

对于可能患有遗传病的患者,cES在诊断孟德尔单基因疾病方面的临床诊断效能通常在40%到50%之间,而cGS则在50%到60%之间。在最近一项研究中,重点关注未诊断病例的病因,其余未诊断病例中大部分为:(1)复杂的结构变异,(2)位于外显子以外的非编码区域的变异,(3)异常剪接,包括隐匿剪接位点,(4)表型复制/基因复制障碍(即由与通常与该病症相关的不同基因引起的已知表型引起的情况),(5)涉及重复区域的基因,以及(6)表观遗传/甲基化/印记障碍。解决这些尚未诊断的病例的能力(尽管仅在研究环境中)表明,随着对基因和基因疾病关联的认识的增加,以及测序技术和生物信息学的不断改进,未来可能能够诊断大多数孟德尔单基因疾病。

 

非孟德尔和多基因疾病机制

发达国家的主要代谢性疾病包括肥胖、2型糖尿病和高血压。其他主要疾病(如动脉粥样硬化性心血管疾病、自身免疫疾病和许多癌症)可能存在家族性疾病聚集,但缺乏与传统的孟德尔单基因遗传模式相关的遗传方式。来自多个基因的许多小效应的组合可能预测除了来自单一孟德尔基因的大效应之外的其他风险。诊断风险预测算法和多基因风险评分(polygenic risk scores,PRS)测量了个体在这些贡献基因中数百甚至数千个遗传多态性的聚集的风险。然而,尽管这些多基因变异可能在某些情况下是致病的,但它们也可能是非致病的,仅仅与疾病相关。PRS需要在特定人群中进行验证,可能不能在没有适当修改组成基因、变异或风险权重的情况下推广到其他种族。在试图调整PRS以适应祖先种族时,请注意基因组包含评估生物祖先的信息,这可能与自我报告或文化祖先不同。虽然PRS可能预测患病的风险增加或减少,但它不是诊断检测,不能作为这样的用途。PRS可用于指导个体进行生活方式变化,或者根据其测得的风险进行更(或更少)密集的疾病筛查和监测。  

自动化

基因组测序的自动化类似于检验医学的其他分支。实验室,甚至是单个仪器,现在能够每天测序数百个基因组,甚至更多的外显子。这种测序信息的数量超过了即使是大型机构计算机设施执行所需的生物信息学的能力,“云”计算变得普遍,可从国际供应商(例如亚马逊网络服务、微软、谷歌)租用算力,根据需要组装所需大小和容量的虚拟计算机。

 

为了处理这一信息量,当前的瓶颈现在出现在变异人工解释阶段。应用机器学习和人工智能的研究已经出现,并且表明这些方法可能至少与人类专家的表现相当,甚至可能超过人类。