《Illumina测序基础知识资料.doc》由会员分享,可在线阅读,更多相关《Illumina测序基础知识资料.doc(21页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第一个要给大家讲的,是它这个 flowcell。Flowcell 翻成中文,就叫“流动池”。我们来看这个图片。图片当中,我们看到一个象载玻片大小的芯片。这个芯片里面,是做了 8 条通道。在这个通道的内表面,是做了专门的化学修饰。它的化学修饰,主要是用 2 种 DNA 引物,把它(2 种 DNA 引物)种在玻璃表面。这两种(DNA 引物的)序列是和接下来要测序的 DNA 文库的接头序列相互补的。而且这 2 种引物是通过共价键,连到 Flowcell 上去。之所以要用共价键连到 Flowcell 上去,是因为接下来有大量的液体要流过这个 Flowcell,只有有共价键连接的这些 DNA,才不会被冲
2、掉。这就是 Flowcell。文库制作再接下来,讲一下文库、和文库的制作(过程)所谓的 DNA 文库,实际上是许多个 DNA 片段,在两头接上了特定的 DNA 接头,型成的 DNA 混合物。文库有 2 个特点,第 1 个特点,是当中这一段插入的 DNA,它的序列是各种各样的。第 2 个特点,它的两头的接头序列,是已知的,而且是人工特地加上去的。要做这个文库,首先是把基因组 DNA,用超声波打断。然后打断之后,两头用酶把它补平,再用 Klenow 酶在 3端加上一个 A 碱基。然后,再用连接酶把这个接头给连上去。连好了接头的 DNA 混合物,我们就称为一个“文库”。英文也称作“library”。
3、桥式 PCR做好了 Library 之后,就要做桥式 PCR 了。桥式 PCR,实际上是把文库种到芯片上去,然后进行扩增,这样的一个过程。这个过程,首先是把文库加入到芯片上,因为文库两头的 DNA 序列,和芯片上引物是互补的,所以,就会产生互补杂交。杂交完了之后,我们在这里面加入 dNP 和聚合酶。聚合酶会从引物开始,延着模板合成出一条全新的 DNA 链来。新的这条链,和原来的序列是完全互补的。接下来,我们再加入 NaOH 碱溶液。DNA 双链在 NaOH 碱溶液存在下,就解链了。而且被液流一冲,原来的那个(模板)链,也就是没有和芯片共价连接的链,就被冲走了。而和芯片共价连接的链,就被保留下来
4、。然后,我们再在液流池里加入中性液体,主要是为了中和这个碱液,在加入中和液之后,整个环境变成中性了。这时侯,DNA 链上的另外一端,就会和玻璃板上的第二种引物,发生互补杂交。接下来,我们加入酶和 dNTP,聚合酶就延着第二个引物,合成出一条新链来;然后,我们再加碱,把 2 条链解链解开;然后,我们再加中和液,这时侯,DNA 链会和新的引物杂交。再加酶,再加 dNTP,又从新引物合成出新的链来。连续重复这一过程,DNA 链的数量,就会以指数方式增长。制备单链在桥式 PCR 完成之后,接下来要做的工作,就是要把合成的双链,变成可以测序的单链。办法是通过一个化学反应,把其中一个引物上的一个特定的基团
5、给切断掉。然后,再用碱溶液来洗这个芯片。这时侯,碱让 DNA 的双链解链,那根被切断了根的 DNA 链就被水冲掉了。留下那根共价键连在(芯片)上面的链。接下来,再加入中性溶液,然后在这个中性溶液里面加入测序引物。正式测序好,接下来正式的测序工作就开始了。那么,在测序的时侯,加入进去的,最主要是 2 个东西:一个是带荧光标记的dNTP。而这个 dNTP,它还有一个特点,它的 3末端是被一个叠氮基堵住的。然后,再加一个聚合酶,聚合酶就会选择:哪一个 dNTP 是和原来位置上的那个碱基是互补的,根据互补性原理,把这个 dNTP 合成到新的这个 DNA 链上去。因为这个 dNTP 的 3端是被一个叠氮
6、基团堵住了,所以,它一个循环只能延长一个碱基。然后,它就停在那儿了。合成完了之后,就用水把多余的 dNTP 和酶给冲掉。冲掉之后,就放到显微镜下,去进行激光扫描。根据发出来的荧光来判断它是哪个碱基。因为 4 种 dNTP,它每一种 dNTP 上面标的荧光素都不一样,根据红、黄、蓝、绿,它出来的哪种颜色,那么,就可以倒过来推出来,这个新合成上去的碱基,是哪种碱基。因为新合成的碱基,是和原来位置(的碱基)是互补的,所以,又推出模板上那个碱基是哪个。这一个循环完成之后,就加入一些化学试剂,把叠氮基团和旁边标记的荧光基团切掉。切完了之后,3端的羟基就暴露出来。再接下来,加入新的 dNTP 和新的酶,然
7、后,又延长一个碱基。新延长完一个碱基之后,把多余的酶和 dNTP 冲掉,再进行一轮显微的激光扫描,再读一下这个碱基是什么。不断重复这个过程,可以重复上百次,到几百次,就可以把上百个碱基,甚至更多碱基的序列读出来。读 Index那么,什么是 Index 哪?是因为 Illumina 的评委会个测序量很大,往往一个样本,用不了那么几亿条 DNA。所以,科学家就想了一个办法。在文库的接头上做了一些标记,每一个样本,它有一个特定的接头,每个接头里面,它有一段特定的序列。这段特定的序列,我们就称为 Index。也有人把它叫做 Barcode,反正,表达的是一个意思:这么一段特定的序列,标记了样本的来源。
8、那么,要读这个 Index 的序列,先用碱把上面这根测完“Read 1”的序列,把上面这根 DNA 链给解链掉。解链掉之后,再加入中性液,然后,加入“Read 2”这个测序引物。Read 2测序引物结合的位点,正好,就在这个 Index 序列的旁边。接下来,就进行第 2 轮测序,一般来说,是读 6 到 8 个碱基。把这 6 到 8 个碱基读下来,我们就可以知道,这某一个具体的一段 DNA,它来自于原始的哪个样本。双端测序这是 Illumina 的最核心的另外一个技术,就是双端测序。那么双端测序,就是说,一根 DNA 链,除了从正向读一遍,还可以从 DNA 的负向,再读一遍。这一下子就把 Ill
9、umina 测序的有效长度加了一倍。这是非常有实际用途的。那么这个倒链的过程,是这样,先让这个 DNA 先合成,合成出来这根互补链。有了这个互补链之后,用一个化学试剂,在原来这根链的根上切一下。切一下,原来这根模板链就掉了,剩下那根互补链。再接下来,就进行第 2 端的测序。第 2 端的测序原理,和第一端的测序原理是一样的。加上了“Read 3”的这个引物,依次往下,一个一个碱基地往下读。大规模平行测序那么最重要的事情是什么呢?一个点,经过几百个循环,就读出了几百个碱基。但实际上,这个芯片上可以有上亿个点,上亿个“cluster”,也就是“簇”。那么上亿个“cluster”,每个循环,它都可以读
10、出地么多序列,这是 Illumina测序非常强大的原因。因为是成千上万,准确说是上亿上链都在合成,这个就得到了很大的一个测序数据量。Illumina HiSeq 测序仪的工作原理。也就是芯片上发生了这么多变化,HiSeq 是如何把这些信息给读出来,并且把扫描出来的荧光信号,又通过怎样一系列的加工,变成可以识别的“A、C、G、T”的碱基序列的。HiSeq 首先是一台高精度的显微光学扫描仪。然后再配上了一整套的液流系统,和计算机软硬件,再加温控系统,组成这样一台测序仪。其中最核心,也是结构最复杂的,是它的光学系统。前一期,我们讲了,Illumina 测序仪主要是靠 4 种 dNTP 分别带有不同的
11、荧光基团,在被激光照了之后,发出不同颜色的荧光。再通过对光的颜色的分辩, 可以判断出到底是哪个碱基。光路结构这里,我们要说明一下:感光元件 CCD,它本身是色盲。所以,它一定要配合滤光片,才能分辩出颜色来。那我们先来看一下,HiSeq 的光路图。左边这两个元器件,就是激光器。一个发出红色激光,另一个发出绿色激光。其中红色激光主要是激发 A 和 C,这两种碱基上的荧光基团;而绿色激光主要是激发 G 和 T,这两种碱基上的荧光基团。红色和绿色这两束光,通过一面半透半反镜,组成一道激光。这道激光打在Flowcell 上。那么请注意,Flowcell 就放在这个位置。在 Flowcell 里面,结合在
12、 DNA 上的那个荧光基团在激光的照射下,就发出荧光。荧光通过 3 面半透半反镜,和 1 面全反镜,被分成 4 条光路,这 4 道光线,分别通过一道滤光片,这 4 张滤光片的滤过波长不一样。这样,这 4 道光在经过了滤光片之后,就变成了 4 种颜色不同的光线。然后,这 4 条颜色不同的光线,各自照在一面反射镜上,通过反射镜进入到CCD。这 4 个 CCD 就记录到不同颜色的光线。TDI 线扫描HiSeq 的光线扫描是“线扫描”,和传统的相机不一样,传统的相机是面扫描。HiSeq 采取了一种特定的叫“TDI”线扫描方式,TDI 是 Time delayintegration 的缩写。在 HiSe
13、q 上之所以采取 TDI 扫描方式,因为它有非常明显的优点。第一个优点,就是它的扫描速度非常快,在 HiSeq 2500 上,从 Flowcell 的一个 Lane 的一头扫到另外一头,也就是一个“Swath”的扫描时间,大概只有20 秒种不到。第二个好处,就是它的扫描精度非常高。在最新的 HiSeq V4 版试剂上,它的光点密度,大概可以达到每平方毫米 90 万个点,要扫描清楚这么高密度的光点,扫描仪的扫描精度是可想而知的。TDI 扫描的第三个好处,是这种方式,可以把 Flowcell 的上表面、和下表面都扫描到。Flowcell(测序芯片)接下来,我们再要详细介绍这张 Flowcell。那
14、么,先来看一下,这张 flowcell 有点象一张载玻片,在这一张片子里面,我们可以看到,它做了 8 条通道。每条通道,我们称为一个 Lane。这 8 个 Lane 之间,相互是隔绝的。每个 Lane 的两端各有一个小孔。这两个小也孔,就是液流流进、流出的地方。每个 Lane 的上表面和下表面,都分别以共价键的方式,种了 2 种 DNA 引物。这两种 DNA 引物,是与文库接头的两头序列相互补的。上一期(节目)我们已经说明了这一点。一个 Lane 里面,分成 2 个面,上表面、和下表面。上表面和下表面,都种了DNA 引物,也都是可以产生测序数据的。在每一条 Lane 的每一个面,又被分成了 3
15、 个扫描通道,每个道被称为一个“swath”。每条 Swath 是从头到底被连续扫描的。但是它的数据,在进行数据分析的时侯,是被分割成 16 个小方块。这每一个小方块,被称为一个“tile”。这样一张 Flowcell,总共就是 768 个 Tile。每个 Tile 在扫描的时侯,会根据 4种颜色,产生 4 张照片。图像处理扫描完了之后,就要进行图像处理。扫描出来的最原始的文件,它的格式是“.tiff”文件。Tiff 文件记录了每个像素点上采集到的光强度。Tiff 文件的优点是它是完全无损,保留了所有的原始信息。但它也有它的不足之处。它的不足 之处就是它的这个文件太大了。它的数据量很大,既不便
16、于数据的传输,也不 便于数据的存储。接下来,计算机软件就把图像文件转化成光点文件。光点文件叫“.BCL”文件。也就是“Base calling”的英文缩写。要把图像文件,转化成 BCL 文件,就是把 4 种颜色的 4 张照片,组合在一起,变成一张有 4 种颜色的彩色照片。这其中首先要解决的,是 4 张照片在空间位置上的匹配问题,因为 4 张照片是通过 4 个 CCD 分别拍下来的,所以,会有一定的空间上的偏差。软件要通过对 4 张照片上,亮点相互比对,找到最合适的、匹配的位置。这里,我们要说明一下,如果被测的文库是碱基不平衡的文库,在这个空间匹 配上就会遇到问题。什么叫碱基平衡呢?也就是说,在
17、测序过程当中,每个循环,A、C、G、T 四种碱基,都是比较均匀在存在的。最典型是人全基因组文库,这是一个典型的碱基平衡文库。那什么是碱基不平衡文库呢?最典型的,就是 PCR 扩增子产生的文库。PCR扩增子的特点:PCR 是有特定的起始位点的,一个特定的测序循环中,几乎所有的片段都是同一种碱基,而剩下的 3 种碱基,就特别少。这在反映到照片上去的时侯,就变成:一张照片特别亮,光点很多。而其它的 三张照片就特别暗,上面的光点就很少。这时侯,要软件做空间上的比对,软件就会觉得困难,因为对于那几张暗的照 片,软件很难判断上面的光点,是否与那张亮的照片上的光点真正对得上。结 果,就是判断出来的可靠性变差
18、。最后,就是测序的数据质量变差,有效数据 量也会变少。要解决这个问题,办法是在测序过程中掺入一些碱基平衡的文库。例如掺人全基因组文库。或者也可以掺 Illumina 提供的标准的 PhiX 文库,这些都是碱基平衡文库。它的作用,是在每个循环当中,为每一种颜色的照片,都提供足够多的亮点。 这样,它可以弥补那些不平衡的文库当中缺亮点的问题。BCL 文件当把 4 种颜色的光点组成一个文件之后,软件就会生成一个“.BCL”文件。“.BCL”文件就是光点文件,它对每个光点,记录了以下的内容。首先一个光点处在哪个 Lane 里面。其次,这个光点在这个 Lane 的哪个 Tile里面。第 3,就是这个亮点在
19、这个 Tile 的 X 轴和 Y 轴的座标位置。第 4,是记录了这个光点当中“红、黄、蓝、绿”四种光的对应的光强。这个图是 BCL 文件的一个示意图。实际上,BCL 文件是二进制文件,无法拿来直接阅读。也正是因为 BCL 文件难于阅读,并且很难改动,所以,BCL 文件几乎不存在做假的可能。在测序过程当中,有许多客户会要求测序公司提供原始的测序数据,如果客户是包 Lane、或者包 Flowcell 的,一般测序公司是可以提供 BCL 文件的。客户在拿到 BCL 文件之后,可以用“BCL2FASTQ”这个软件,把 BCL 文件转化成 FASTQ 序列语文件。以此,客户可以来验证,测序公司提供的数据
20、是否是原始的,是否是真实的。再说一下最初生成的那个 tiff 文件。tiff 文件实在太大了,所以,测序仪在测序过程中,只把 tiff 文件作为中间文件。最后是把这个 tiff 文件删掉的。如果客户想要原始的图像文件,在 HiSeq V4 之前,可以让测序公司保留“.CIF”文件。CIF 文件是一种彩色图案的向量文件,它的优点是比 tiff 文件的数据量小很多。测序公司把 CIF 文件给客户之后,客户就可以看到原始的图像文件了。但是,请注意:在 HiSeq 升级到 V4 之后,保留 CIF 文件的这个选项是被取消掉了。所以,对于要测 V4 Lane 的客户来说,是拿不到 CIF 文件了。碱基识
21、别接下来,我们讲一下碱基识别。我们之前讲:4 种 dNTP,各标一种荧光基团,红、黄、蓝、绿,四种颜色,根据颜色来判断碱基种类。这个实际上是一种简化了的说法。实际情况,要比这个复杂得多。来看这个图,这是 2 种荧素的荧光的波长图。我们会发觉,这两种荧光色,它发出来的发射光,它在波长上是有交叠的。在X 的这个位置,主要是绿色荧光素的贡献,但是蓝色荧光素,也有少许贡献。而在 Y 这个波长位置,蓝色荧光素是做了主要贡献,但是绿色荧光素,也有少量供献。在实际测序过程中,是 4 种荧光素发出的亮,相互有交叠,相互之间的交系,变得更加复杂。那么,现在我们要做的事情,是把 A、C、G、T,4种荧光素的贡献给
22、拆开。首先,我们就要确定 4 种荧光素在 4 个被测波长处的贡献率。我们可以看一下,这个表,就是 4 种荧光素,在 4 个波长分别有不同的贡献率。这样就组成一个 4X4 的贡献率表格。我们在实际的分析当中,等于解一个 4元 1 次、4 联方程。因为是 4 个未知数,又是 4 个方程,所以肯定是可以解出来的。说解方程,有点复杂。那么我们来打一个比方。让大家来理解这个事情。假设有一家饭店,它有 4 个熟客:甲、乙、丙、丁。它日常又提供 4 道菜:猪肉、白菜、黄瓜、花生。大厨知道:甲最爱吃猪肉、乙最爱吃白菜、丙最爱吃 黄瓜、丁最爱吃花生,每个人来了饭店之后,主要吃自己最爱吃的,也会吃些 别的菜,但别
23、的菜都吃得不是太多。那么这个大厨不到前台,看不到今天来的客人。如果,这个大厨想要知道今天 来的客人是谁,他有什么办法呢?看今天哪个菜被吃掉得最多。如果今天的菜 被吃掉的最多的是猪肉,那他可以大致地判断,今天是甲来过了;如果他看到 今天被吃掉的菜,最多的是白菜,很可能是乙来过了;那么其它的,道理也是一样的。希望这个例子可以帮大家来理解一下,这 4 个荧光和 4 种碱基的判读的关系。Phasing 和 Prephasing接下来,我们再讲一下,Phasing 和 Prephasing。在 Illumina 的测序过程当中,一个簇,大概有 5 千个到 1 万个分子。但是在边合成、边测序的过程当中,每
24、一步酶反应,理想情况下,应该这 5 千个分子都延长 1 个碱基。但实际情况,总有少量分子没有完成延长反应。也就是说,总有少量的分子会掉队,我们称这种掉队的现象叫“phasing”。Phasing 主要是由于酶活性不足,所引起的。如图所示,掉队的这个分子,它所发出的荧光信号,和大部队所发出的荧光信 号是不一样的。这个循环的次数越多,掉队的分子就越多。所以,测序越到后面,它 Phasing 的分子数就越多。最后,信号的可靠性就越差。除了掉队的分子,还会有一部分分子,会跑得超前,也就是在一个循环中,它延长了 2 个碱基。在一个循环中延长了 2 个碱基的最主要的原因,是 dNTP 上标记的那个叠氮基团
25、(N3)掉了。我们知道,叠氮基团是非常容易从有机化合物上掉落的。当叠氮基团掉落之后,dNTP 的 3端的羟基就暴露出来了。当丢失了叠氮基团的 dNTP 加到(合成链的)3端之后,它的聚合反应不会终止,而是会继续往前走。当再加上了一个带叠氮基团的 dNTP 之后,这个聚合反应才停下来。这样的后果,就是一个循环,某些分子,会合成了 2 个碱基。也就是说比大部队多走了一步。那么这个多走了一步的碱基,它所发出来的荧光颜色,也是和 大部队不一样的。在 Illumina 测序过程当中,Phasing 和 Prephasing 是限制测长的最主要原因。也就是说,随着循环不断进行,越来越多的分子掉队,还有越来
26、越多的分子超 前。然后,它们所产生的噪音,掩盖了大部队的信号的时侯,也就是测序开始 测不准的时侯。在 HiSeq 测序当中,从第 12 个循环开始,在计算某个光点是哪种碱基的时侯,就要把 Phasing 和 Prephasing 的影响,纳入考虑。Chastity 和 Pass filter为了对光点当中荧光素的纯粹程度进行描述,Illumina 公司定义了个标准,叫“chastity”,Chastity 的定义,就是浓度最高的那个荧光素的量,去除以“它自己 + 排名第二的荧光素的量的和”。大于 0.6 是一个好碱基。用更加通俗的话来说,也就是“老大”比“老二”,如果大于、等于“1.5 倍”,
27、这就是个“好”碱基。如果“老大”比“老二”不足“1.5 倍”,这就是个“坏碱基”。Illumina 对每个 read 的质量都要做一个检验,这个检验就叫“pass filter”检验。检验的标准,是看前 25 个碱基当中,有几个是“坏碱基”。如果只有一个、或者没有坏碱基,则 Pass filter 就通过;如果有超过一个以上的坏碱基,Pass filter 就不能通过。那我们平时说,测序服务保证多少“PF data”,指的就是 Pass Filter(PF)的数据。Pass Filter 最主要的作用,就是把那些一个光点当中,含了几个 cluster 的那些点,给去掉。只剩下那些纯粹的单克隆的
28、 read,作为合格的数据,提交给客户。我们平时说“PF 率”,指的就是 Pass Filter 的 Reads 数,占总的、测到的Reads 数的比例。PF 率可以从一个侧面反映测序的质量。一般来说,如果上样密度过高,PF 率就可能会下降。Quality Score,Q 值一个碱基的 Quality Score,也就是这个碱基的质量分数(Q 值)。这个是通过这个碱基被误判的可能性,换算出以 10 为底的对数,再乘以“-10”得到的这样一个数字。这个 Q 值,有点象我们说黄金的纯度,我们说“三九金”,或者说“四九金”,就是指 99.9%的纯度的金子,或者是 99.99%的纯度的金子。我们平时说
29、 Q30,就是指一个碱基的可靠性达到 99.9%。或者说,它的出错的可能性小于千分之一。同样道理,我们说 Q40,就是指一个碱基的可靠性是 99.99%。或者说,它的出错的可能性是万分之一。那么,我们经常说 Q30 比例,所谓的“Q30 比例”,就是在全部 PF 数据当中,达到、或者超过 Q30 质量标准以上的数据,占所有 PF 数据的比例,叫 Q30比例。Q30 比例,可以表征一个测序过程的质量的好坏。一个碱基的质量分数,不是以数字方式,直接记录到最后的 Fastq 文件的。而是把它的 Q 值,加上 33,再用 ASCII 码表转换成一个字母,把这个字母录入 Fastq 文件。这样做,有 2
30、 个好处。如果我记 2 位数字,那么就占 2 个字节,现在用一个字母来记录,只占一个字节。那(数据存储)空间就节省了很多。第二个好处,用 ASCII 码字母表,一个碱基,只对应一个字母;如果是用 2 位数字来记录,就有可能发生移码错误。而用 ASCII 码,一个字母来记录,就不太容易发生移码错误。Fastq 文件在软件做完上述所有的数据处理之后,就会生成一个 Fastq 文件。Fastq 文件里,主要包含了 3 部分内容。第一个部分,是每个 Read 的目录信息。也就是这个 Read 来自于哪台HiSeq、第几个 run、第几个 Lane、和第几个 Tile,以及在这个 Tile 的 X、Y的
31、什么位置。接下来,就是所测到的碱基的序列。最后,是这些碱基序列对应的质量分数信息。这个,就是 Fastq 文件。到 Fastq 文件之后,测序仪所要完成的工作,就完全完成了。Pacbio 是目前读长最长的测序技术公司。它的读长,最长可以达到 2 万到 3万个碱基,平均可以达到 8 千多个碱基。相比于 llumina 和 Ion Torrent 的几百个碱基的读长来说,有着明显的优势。PacBio 测序过程PacBio 的测序原理,和别的高通量测序的原理,基本上也是一样的。也是边合成,边测序。首先,这个聚合酶是固定在测序小孔的玻璃底板上。这个聚合酶又和 DNA 模板、测序引物是结合在一起的。然后
32、加入带 4 色荧光的 dNTP 底物,这些 dNTP 都在其磷酸基团上被标上了荧光基团,四种碱基、各标一种颜色。当一种与聚合酶正要合成的碱基一致的 dNTP 被酶抓住的时候,酶就会长时间地抓住这个 dNTP,不让这个 dNTP 漂走。这时侯,激发光从小孔的底部照进来,打在这个被抓住的 dNTP 上,就会在较长时间内发出荧光。仪器根据所拍到的荧光的颜色,就可以来判断,这个碱基是哪种碱基。一个循环的聚合反应发生完毕之后,焦磷酸基团就从原来的 dNTP 上掉下来,因为荧光基团是连到这个焦磷酸上的,所以这个荧光基团也就一起掉下来了,在溶液中就会漂走。接下来,进行第二、第三个循环,一直进行下去。一张芯片
33、上有几万个孔,同时进行测序,这样一次就可以得到几亿个碱基的序列。接下来,分几个要点,来说明这个测序的过程。化学方法和 Illumina 一样,PacBio 也采用了 4 色荧光基团来标记 dNTP,但是 PacBio的标记和 Illumina 的标记有所不同,PacBio 的荧光基团直接是标在 dNTP 的3端的磷酸基团的末端的。这样标记的好处是:当一个聚合反应的循环完成的时侯,dNTP 上的那两个磷酸基团就掉下,连在这个磷酸基团上的荧光基团也随一块儿掉下来。它掉下来之后,就在溶液中漂走,不会影响接下来的测序过程了。测序微孔然后,我们说一下这个测序小孔的设计。这个测序小孔叫 Zero Mode
34、l Waveguide,简称 ZMW。小孔的直径很小,光只能在小孔中传输很短的距离。这个特点对 PacBio 的测序很重要。因为酶是被固定在玻璃底板上的,所以,只有互补的 dNTP 被酶抓到的时侯,这个 dNTP 才会较长时间地停留在离玻璃底板很近的位置。也只有这样,才会被激发光照到,并且发出它的荧光。PacBio 的光学设计中,入射光是几百纳米波长的可见光,光从小孔的底部的玻璃处照到小孔中来。这个,只有 70 纳米。其它游离的 dNTP,只会非常短暂地进入小孔,又很快漂走。所以,这些游离dNTP 带来的的噪音(信号),就被抑制在很低的水平。哑铃状的文库接下来,我们说一下 PacBio 的建库
35、。PacBio 的建库是比较特别的。它的库是在 DNA 片段的两段各接一下发夹型的接头。接好了发夹形的接头之后,形成的文库是一个哑铃形的文库。这种哑铃形状的文库有个好处,那它整个分子实际上是一个圆环。在测序的过程中它可以周而复始地进行测序,这对于发挥 PacBio 的长读长的优势是很有益处的。超长读长的根本原因 - 单分子测序接下来,我们说一下 PacBio 它测序长度优势的来源。这个来源,是因为它测的是个单个分子。相比之下,Illumina 或者 Ion Torrent 测的都是一簇分子。或者说它们测的都是一大堆分子。当它测一大堆分子的时侯,每个循环,多多少少,总有一些分子落后;也多多少少,
36、有些分子超前。这些落后、或者超前的分子,在每个循环里面就会给出噪音。而且,随着循环次数越来越多,落后、和超前的分子也会越来越多,达到一定程度的时侯,噪音就会很大,大到会掩盖掉信号。当噪音大到掩盖掉信号的时侯,实际上测序就测不准了。相比之下,PacBio 它只有一个分子,所以,它不存在同步问题。这就让它可以测到几千、基至上万个 BP 都可以达成。碱基判读准确率:87.5%接下来,我们要说一下 PacBio 测序的缺点。最大的缺点是对碱基的判读不准。它的错误率是 12.5%。也就是说,它每读 8个碱基,就有一个是读错的。那么它主要的错误类型是“插入“。也就是说,它会多读一个碱基。好在,它的这种错误
37、是随机的。也就是说,你在这个地方再读一遍,它不一定会发生同样的错误。那么,对于同一个序列,多测几遍之后,这些偶然误差,可以被校正过来。读长限制因素接下来,我们说一下限制 PacBio 读长的因素。第一个因素,就是 DNA 链上出现了缺口。测序过程中是用激光照射来发出荧光的,所以当强光长时间照射 DNA 链的时侯,DNA 链就有可能被照断掉,出现缺口。当酶读到这个缺口的时侯,酶就从模板链上掉下来。这时侯,测序就终止了。这是第一种可能。第二种可能,是光线照射情况下,酶有可能会变性,当酶发生了变性之后,失去了聚合酶的功能,这时侯,测序也会终止。第三个限制因素,是文库本身的长度。因为要做片段长度大于
38、2030K 的文库,是有相当大的困难的,所以,文库本身的质量,在一定程度上,也限制了PacBio 的读长。数据通量在高通量测序当中,测序的通量,是一个很重要的技术指标。那 PacBio 大根一张芯片一次可以测到 0.30.4G 的数据。在 PacBio 测序中,芯片上的小孔数是第一个绝对的、限制性的因素。目前的芯片,是有 15 万个小孔。但这 15 万个小孔中,并不是每一个都能产生有效数据的。这里,我们要说一下,测序复合物和玻璃底板结合的方式所谓的测序复合物,就是“聚合酶、测序模板、测序引物“这三者组成的复合物。这个复合物是通过聚合酶连接到玻璃底板上的。这个连接方式,首先在聚合酶上标上生物素。
39、然后,在小孔的玻璃底板上标上链霉亲合素。实验过程当中,利用生物素和链霉亲合素的亲合力,把两者(聚合酶、和玻璃底板)结合到一块儿。在实验过程当中,这个测序复合物是被随机地铺撒到这 15 万个小孔中的。因为是随机地铺撒进去的,所以,有多少个小孔里面正好有一个测序复合物,是符合泊松分布的。最理想的情况下,是有 1/3 的小孔是正好有一个测序复合物。这时侯,还有约1/3 的小孔是空的,还剩下约 1/3 的小孔是有 2 个或者 3 个以上的测序复合物被种进去。空的这些小孔,因为接下来它没有聚合反应发生,也没有信号,那当然是废掉了。那么有 2 个复合物种进去、或者有更多复合物种进去的这些小孔,因为它产生的
40、信号会非常的杂乱,所以,这些孔实际上也是没用的。它产生的数据,在接下来的数据分析当中,是会被去掉的。一张芯片有 15 万个孔,其中 1/3 有效,也就是说,有效的孔数是 5 万个。然后乘以它目前的平均测长,大概 8 千多个碱基,所以,一张芯片,比较理想的情况下,大概有 0.4G 的数据量的产出。直接测 DNA 修饰PacBio 在测序当中,可以直接测到碱基的被修饰状态。因为当聚合物,遇到模板上有甲基化的 A、C 等碱基,它测序的速度就明显地放慢。而且它的光谱特征会发生改变。这样,就可以判断,这个位置上的 DNA 被甲基化了。GC Bias 很小PacBio 测序还有另外一个好处,就是它 GC
41、Bias 很小。什么叫 GC Bias 呢?就是我们知道,所有的 PCR 的过程,如果模板里面G、C(碱基)的含量比较高,PCR 的效率就比较低。反之,A、T(碱基)的比例比较高,则它 PCR 的效率比较高。传统的建库当中,一般都有大量的 PCR 的过程。它导致的一个结果,就是G、C 含量高的那些片段,它读到的 Reads 数,就会比较少。PacBio 它的好处,就是它的建库过程中没有 PCR 过程,所以,它带来一个直接的好处:就是它测序过程当中,GC Bias 很少。也就是说,那些高 GC 的片段,有和低 GC 的片段差不多的概率被读到。测序速度极快高通量测序的另外一个指标,就是测序的速度。PacBio 的测序速度取决于酶反应的速度。目前 PacBio 用的这个酶,大概 1 秒钟是合成 3 个碱基,1 个小时大概就可以合成 1 万多个碱基,3 个小时可以合成 3 万多个碱基。到 3 万多个碱基之后,基本上继续在读的 Reads,已经几乎没有了,所以,3 个小时之后,测序基本就完成了。1 个 Run 读三个小时,相对于 Illumina 的测序速度来说,是非常快的;相对于Ion Torrent 的测序速度来说,也相对要快一点点。所以,PacBio 是一种非常快的测序方式。
限制150内