推医汇

首页 > 行业动态

高通量测序常见名词汇总,分分钟帮你解决困扰

2023-11-21 18:07:39来源:基因谷

目前有哪些测序方法?什么是一代测序

一代测序技术,也被称为Sanger测序。其利用了双脱氧核苷酸会终止PCR的原理。比如:一条序列为ATCGCTA,我们进行3次的双脱氧核苷酸,第一次加入双脱氧核苷酸A和正常的ATCG那么我们会得到下面两种序列,A、ATCGCTA。那么我们就知道碱基A在序列的第一个碱基和第7个碱基。同理运用双氧核苷酸T和C,就会得整个序列的对应碱基的位置BP信息。进而得到整条序列的ATCG的序列信息。当然这些都是由仪器进行检测的。

一代测序的特点:速度快,但是一次只能测一条单一的序列,且最长也就能测1000-1500bp。所以被广泛应用在单序列测序上。简单概括就是,一代测序只能测一条长度在1000bp左右的序列。广泛应用于单条序列的突变位点检测。
 

什么是二代测序?

二代测序技术,也被称为高通量测序技术。它解决了一代测序只能测一条序列的缺陷。随着科研的不断深入,我们开始分析一个物种或样本中的所有序列信息,这个时候一代测序一次测一条的方式就无法满足我们的需求。二代测序技术就是在这样的情况下诞生的。之所以称其为高通量测序就是因为它一次能够同时测很多的序列。我们通过物理或是化学的方式将DNA随机打断成无数的小片段(250-300bp),之后通过建库(这里就不深入建库的原理了)富集了这些DNA片段。接下来将建完的库放入测序仪中测序,测序仪中有着可以让DNA片段附着的区域,每一个片段都有独立的附着区域,这样测序仪可以一次检测所有附着的DNA序列信息。最后通过生物信息学分析将小片段拼接成长片段。

二代测序特点:一次能够测大量的序列,但是片段被限制在了250-300bp,由于是通过序列的重叠区域进行拼接,所以有些序列可能被测了好多次。由于建库中利用了PCR富集序列,因此有一些量少的序列可能无法被大量扩增,造成一些信息的丢失,且PCR中有概率会引入错配碱基。所以三代测序就这样诞生了。

 

什么是三代测序?

三代测序其实就是对二代测序的一个升级,简单来说就是它同样一次能测好多序列,但是测序的长度达到了10kb左右,并且不需要PCR富集序列,直接测序,这就解决了信息的丢失,以及碱基错配的问题。但目前来说三代测序依然有一定的缺陷:三代测序技术依赖DNA聚合酶的活性,且成本很高,极大地高于二代测序技术的错误率不过好在三代的错误是完全随机发生的,可以靠覆盖度来纠错(但这要增加测序成本)。

「二代测序和三代测序统称为高通量测序,又称“下一代测序”或“深度测序”」

什么是de novo测序?

de novo测序也称为从头测序,不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接、组装,从而获得该物种的基因组图谱。

什么是全基因组重测序(WGS)?

全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病或动植物性状相关的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

什么是泛基因组?

2005 年, Tettelin 等⾸次在细菌研究中提出泛基因组(pan-genome)概念。指整个物种基因/基因组序列的⾮冗余集合,包括存在于该物种几乎所有个体中的核心基因组(core genome)和仅在部分个体中存在的可变基因组(accessory /variable/dispensable genome)。广义的泛基因组是一个捕获了物种全部遗传信息的集合。

什么是BSA测序?

BSA(Bulked Sergeant Analysis),即分离体分组混合分析法,也称为集群分离分析法或混合分组分析法,是从近等基因系分析法演变而来的。近等基因系(NIL)指一组遗传背景相同或相近,只在个别染色体区段上存在差异的株系。BSA法克服了许多作物没有或难以创建NIL的限制,其原理是从一个分离群体中选择目标性状表型极端的10~20个单株,混合构建2个DNA“池”,这两个池应在感兴趣的性状方面存在差异,除了感兴趣基因所在的位点外,所有的位点均随机化。换句话说,两个DNA池间的差异相当于两近等基因系基因组之间的差异,仅在目标区域不同,而整个遗传背景是相同的。对两个池筛选标记,多态性标记可能表示与感兴趣的某个基因或QTL连锁。在检测两个DNA池之间的多态性时,通常应以双亲的DNA作对照,以利于对实验结果的正确分析和判断。

什么是外显子测序(WES)?

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

什么是转录组测序(RNA-seq)?

转录组测序的研究对象是特定细胞在某一功能状态下所能转录出来的所有mRNA的总和。

RNA-seq可供研究者转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区SNP 研究),非编码区域功能研究(Non-coding RNA 研究、microRNA 前体研究等), 基因表达水平研究以及全新转录本发现。

什么是表观遗传?

表观遗传学(英语:epigenetics)又译为表征遗传学、拟遗传学、表遗传学、外遗传学以及后遗传学,在生物学和特定的遗传学领域,其研究的是在「不改变DNA序列的前提下,通过某些机制引起可遗传的基因表达或细胞表现型的变化」。

什么是染色质免疫共沉淀测序(ChIP-seq)?

ChIP-seq是指通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化、文库构建、测序;再将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。

什么是ATAC-Seq?

ATAC-Seq是“Assay for Transposase-Accessible Chromatin with high-throughput Sequencing”的缩写。ATAC-Seq方法依赖于使用高活性转座酶Tn5的下一代测序(NGS)文库的构建。

将NGS接头连接到转座酶上,该转座酶可以使染色质断裂并同时将这些接头整合到开放的染色质区域中。构建的文库可通过NGS测序,并使用生物信息学分析具有可及或可访问染色质的基因组区域。

与其他技术(例如研究相似染色质特征的FAIRE-Seq或DNase-Seq)相比,ATAC-Seq的主要优势在于该测定所需的细胞数量更少,并且其两步法操作相对简单。

什么是甲基化测序?

DNA甲基化是表观遗传学(Epigenetics)的重要组成部分,在维持正常细胞功能、遗传印记、胚胎发育以及人类肿瘤发生中起着重要的作用。全基因组甲基化测序(Whole Genome Bisulfite Sequencing,WGBS),其采用亚硫酸氢盐处理基因组DNA使未甲基化修饰的胞嘧啶C转化为尿嘧啶U,通过对处理后的DNA进行全基因组重测序,并与参考基因组进行比对,从基因组水平实现单碱基分辨率的、高精确度甲基化水平分析,广泛应用于细胞分化、组织发育等基础机制研究,以及动植物育种、人类健康与疾病治疗等研究领域。

什么是small RNA测序?

small RNA(如miRNA、ncRNA、siRNA等)是一大类调控分子,几乎存在于所有的生物体中,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。通过对small RNA大规模测序分析,可以从中获得物种全基因组水平的miRNA图谱,实现包括新Small RNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、small RNA聚类和表达谱分析等科学应用。

什么是lncRNA测序?

lncRNA是一类长度大于200nt的非编码RNA,不能编码长度≥30个氨基酸的蛋白质。lncRNA 可以定位在细胞质中,也可定位在染色质和细胞核上,通过表观遗传学调控、转录调控、转录后调控、蛋白活性调控等多种方式调控相关基因的作用。与mRNA相比lncRNA平均转录本长度更短,且具有较少的isoform。虽然lncRNA表达更低,但具备组织和细胞类型特异性。

什么是微生物多样性测序?

微生物多样性测序,通过扩增微生物的16S rDNA、18S rDNA以及ITS高变区域并进行高通量测序,可分析环境中细菌、古细菌以及真菌等的物种组成和相对丰度差异,获得环境样本中的微生物群落结构、进化关系以及微生物与环境相关性等信息。

什么是宏基因组测序?

宏基因组测序(Metagenomics Sequencing)通过高通量测序研究特定环境下的微生物群体基因组,分析微生物多样性、种群结构、基因功能、代谢网络和进化关系等,并可进一步探究微生物群体功能活性、相互协调作用关系及与环境之间的关系。宏基因组测序研究摆脱了微生物分离纯培养的限制,扩展了微生物资源的利用空间,为环境微生物群落的研究提供了有效工具。

什么是单细胞测序?

单细胞测序技术,简单来说,就是在单个细胞水平上,对基因组、转录组及表观基因组水平进行测序分析的技术。传统的测序,是在多细胞基础上进行的,实际上得到的是一堆细胞中信号的均值,丢失了细胞异质性(细胞之间的差异)的信息。而单细胞测序技术能够检出混杂样品测序所无法得到的异质性信息,从而很好的解决了这一问题。

传统的二代测序中,最为人熟知的就要数RNA-seq了。RNA-seq是提取组织、器官或一群细胞的混合RNA(bulk RNA)进行测序,能够得到的是一群细胞的转录组的平均数据,细胞群体中单个细胞的特异性信息往往被掩盖(比如特异表达的基因或RNA不同的剪接体)。而随着对生物结构功能的深入研究,人们越来越清楚地认识到,哪怕看似相同的细胞群,细胞之间的转录组表达水平也是存在差异的。以肿瘤为例,肿瘤中心的细胞,肿块边缘的细胞和肿块周围的细胞,乃至远端转移的细胞,其转录组等遗传信息一定是存在差异的,而传统的研究手段通常将整个肿块整体进行研究,或者将肿块简单分区分割,得到每一部分细胞基因表达的平均值,丢失了每个细胞的异质性信息,使科研人员对肿瘤微环境中各种细胞转录组表达及免疫功能的理解和认识始终无法深入。

什么是空间转录组测序?

在多细胞生物中,单个细胞的基因表达严格按特定的时间和空间顺序发生,即基因表达具有时间特异性和空间特异性。时间特异性可以通过对不同时间点的样本取材,使用单细胞转录组测序技术来解析时间维度上细胞类型和基因表达模式。空间特异性信息则相对较难获得。常规转录组测序和单细胞转录组测序都难以还原细胞所处的原始位置信息。传统的原位杂交技术又很难实现高通量检测。

10X genomic Visium空间基因表达解决方案(Visium Spatial Gene Expression Solution)可以测量完整组织切片的总mRNA,将总mRNA的空间信息与形态学内容相结合,并绘制所有基因表达发生的位置,获得疾病复杂而完整的基因表达图谱。在确定不同细胞群的同时保留空间位置,为细胞功能、表型和组织微环境中位置关系提供了重要信息。

测序后,当你拿到测序数据时,可能会遇到这些问题:

什么是Reads?

高通量测序平台产生的短序列就称为reads。PE125,就是读长为125bp双端测序。

什么是测序深度和覆盖度?

测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。也可以理解为被测基因组上单个碱基被测序的平均次数。

测序的覆盖度(coverage):是指测序获得的序列占整个基因组的比例,也可理解为对目的基因的覆盖程度。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

什么是单端测序、双端测序?

Roche 454,Solexa和ABI SOLID均有单端测序和双端测序。以solexa为例,对单端测序(Single-end)和双端测序(Paired-end和Mate-pair)进行介绍。

单端测序(Single-end/SE):首先将DNA样本进行片段化处理形成200-500p的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。

Paired-end(PE):指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。

Mate-pair(MP):文库制备旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10k)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10k范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600p的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序。

 

当你在进行基因组重测序时,可能会遇到这些问题:

什么是SNP、SNV?

「SNP:」即单核苷酸多态性(single nucleotide polymorphism),个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性,是研究人类家族和动植物品系遗传变异的重要依据。人基因组上平均每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但大多数与疾病无关。

「SNV:」 即单核苷酸位点变异(single nucleotide variants),相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。

什么是INDEL?

基因组上小片段(<50bp)的插入或缺失,形同SNP/SNV。

什么是CNV、SV?

「CNV:」即基因拷贝数变异(copy number variation),是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。

「SV:」即基因组结构变异(structure variation ),主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。

什么是SD区域?

「SD区域:」指串联重复(Segment duplication),由序列相近的一些DNA片段串联组成。在人类染色体Y和22号染色体上,有很大的SD序列。

当你在进行转录组数据分析时,可能会遇到这些问题:

###什么是转录本?为什么一个基因可以有多个转录本?

转录本其实就是基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。但我们平常通过数据库查找某个基因的相关信息时,会发现该基因有多个转录本。为什么一个基因可以有多个转录本呢?

这是因为剪接方式不同造成的。基因转录之后,先形成前体mRNA,通过剪切内含子连接外显子,5’端加帽及3’端加尾之后形成成熟的mRNA。但在剪切的过程中可能会剪切掉外显子,也有可能保留部分内含子,这样就形成了多种mRNA即多个转录本。

什么是RPKM、FPKM?

RPKM和FPKM都用来表示基因的表达量。

RPKM: Reads Per Kilobases per Millionreads,代表每百万reads中来自于某基因每千碱基长度的reads数,用于表示基因的表达量。

FPKM:Fragments per Kilobase Million,FPKM意义与RPKM很相近,二者区别在于Fragments 与 Reads。

RPKM的诞生是针对早期的SE测序,FPKM则是在PE测序上对RPKM的校正。只要明确Reads 和 Fragments的区别,RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段,在SE中,一个Fragments只测一条Reads,所以,Reads数与Fragments数目相等;在PE中,一个Fragments测两端,会得到2条Reads,但由于后期质量或比对的过滤,有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。总之,对某一对Reads而言,这2条Reads只能算一个Fragments,所以Fragments的最终数目是Reads的1到2倍之间。

#当你想进行基因组/转录本组装时,可能会遇到这些问题:

什么是Contig?

拼接软件基于reads之间的重叠(overlap)区,拼接获得的序列称为Contig(重叠群)。

什么是Contig N50?

Reads拼接后会获得一些不同长度的Contigs,将所有的Contig长度相加,能获得一个Contig总长度。将所有的Contigs按照从长到短进行排序,如Contig 1,Contig 2,Contig 3...………Contig 25。然后按照这个顺序依次相加,当相加的长度达到Contigs总长度的一半时,最后一个加上的Contig长度即为Contig N50。

如:Contig 1+Contig 2+ Contig 3+Contig4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

什么是Scaffold?

基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Matepair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contigs之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

什么是Scaffold N50?

Scaffold N50 与Contig N50 的定义类似。Contigs 拼接组装获得一些不同长度的Scaffolds 。将所有的 Scaffolds长度相加,能获得一个Scaffolds总长度。然后将所有的Scaffolds按照从长到短进行排序,再按照这个顺序依次相加,当相加的长度达到Scaffolds 总长度的一半时, 最后一个加上的Scaffold长度即为Scaffold N50 。Scaffold N50也是基因组拼接的结果好坏的一个判断标准。

什么是基因组注释?

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

基因组注释分析主要包括以下方面

(1) 重复序列的预测。通过比对已知的重复序列数据库,找出序列中包含的重复序列,识别类型并转化为N或者X,统计各种类型重复序列的分布。

(2) 编码基因的预测。通过将转录组或EST数据比对到拼接后的基因组序列上,找出编码基因位置,预测编码基因结构。或者通过专业的外显子预测软件,预测编码基因的外显子结构。

(3) 小RNA基因的预测。通过比对已知的小RNA的数据库,或者通过生物信息学软件预测,找出这些小RNA基因,并进行分类。

(4) 调控序列和假基因的预测。

基因功能的注释,使用的数据库包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比对的方法找出同源相近的基因,并注释功能。

「基因注释用到的那些数据库都是啥?」

「(1)NR/NT数据库」

NR/NT数据库是NCBI上比较常用的数据库。NR:非冗余蛋白序列数据库,包括所有的GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列。它以核酸序列为基础进行交叉索引,将核酸与蛋白质联系起来。对于已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(由读码框推断)。NT:非冗余核酸序列数据库,是NR库的子集。

NR和NT库都可以通过NCBI进行在线BLAST

「(2)Swiss-Prot:」是检查过的、手工注释的蛋白数据库,它的所有序列都经过科学家查阅文献的核实。Swiss-Prot能提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。

Swiss-Prot目前已合并到UniProt数据库中,同TrEMBL 、PIR-PSD构成UniProt数据库的三大主库。链接:UniProt

「(3)COG :」Clusters of Orthologous Groups of proteins,直系同源蛋白簇,该数据库认为构成每个COG的蛋白都是被假定为来自于一个祖先蛋白。

COG分为两类,一类是原核生物,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。

链接:COGs - Clusters of Orthologous Groups (nih.gov)「(4)KEGG :」Kyoto Encyclopedia of Genes and Genomes,是处理基因组、生物通路、疾病、药物和化学物质之间联系的集成数据库。

其中最核心的是KEGG Pathway数据库,又分为3个层级:

  • 第一层级:生物代谢通路分为7个大类,新陈代谢、遗传信息加工、环境信息加工、细胞过程、生物体系统、人类疾病、药物开发;

  • 第二层级:将第一层级中的7个类别进一步细化;

  • 第三层级:直接对应KEGG 的pathway,每一个pathway都标示参与该过程的基因

链接:KEGG: Kyoto Encyclopedia of Genes and Genomes「(5)GO」:Gene Ontology ,基因本体论数据库。GO中最基本的概念是“term”,是用来描述基因和基因产物特性的,即GO数据库是给每个基因贴上标签,以便研究者能够通过标签快速寻找到目标基因。

在GO分析中,所有的结果都按照以下3个一级功能来整理分类:

  • 细胞学组件(CC):用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等;

  • 生物学途径(BP):指分子功能的有序组合,以达成更广的生物功能,如有丝分裂或嘌呤代谢等;

  • 分子功能(MF):用于描述基因、基因产物的功能,如与碳水化合物结合或ATP水解酶活性等。