测序接头是一段已知的短核苷酸序列,用于链接未知的目标测序片段。 在高通量测序中,接头扮演着至关重要的角色,它们是二代测序文库不可或缺的组成部分,充当着待测DNA片段与测序芯片(Flow cell)连接的桥梁。接头的连接效率直接影响到文库的质量和产量。
完整的文库需包含:1.DNA片段(DNA Insert);2.DNA片段两端各有的一个接头。
接头主要包含P5和P7序列、Rd1 SP和Rd2 SP以及Index序列。
1.P5和P7序列是使文库DNA片段能够结合并在NGS仪器的Flow Cell上生成簇的序列;在illumina平台中,与测序芯片上的P5和P7端结合,将待测DNA文库固定到测序芯片上,以便于通过桥式PCR进行成簇反应。
2.Rd1 SP和Rd2 SP是测序启动时测序引物的结合位点;就是从这里开始测序(read)。
3.Index则是用以区分样本的标签序列,Index序列的存在可允许单次测序或单个Flow Cell通道中混合多个人的样本。每个人的样本只有一个身份证(Index)。

Index标签:
样品标签(sample index,sample barcode):用于区分不同来源的样本而加上的标签序列。所以,每一个人的样本只能有一个相同的样品标签,就像一个正常人只能有一个身份证。然鹅,但是,一个人的标本可以有成千上万的分子标签(barcode)。
分子标签(Molecular Barcode, UID:Unique identifiers, UMI:Unique molecular identifiers):针对同一个人的样本中的不同DNA片段加上的标签序列。
分子标签:对原始样本基因组打断后的每一个片段都加上一段特有的标签序列,用于区分同一样本中成千上万的不同的片段,在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶和扩增以及测序过程中所出现的错误。分子条形码通常由大约10nt左右的随机序列组成。
分子标签的作用原理:同一个样本的DNA片段,每一个片段都带有一个特有的标签序列,它会随目标序列参加万里长征,他们一起经过文库构建、一起被PCR 扩增,然后一起被测序。最终测序得到的序列中,带有不同标签的序列,代表它们来自不同的原始DNA片段分子;带有相同分子标签的序列,代表这些序列都是从同一条原始的DNA片段扩增而来的。由于PCR和测序过程中的错误是随机发生的,因此根据这些分子标签,可以在去除冗余的过程中将PCR和测序等过程中带来的系统突变排除掉。利用分子标签进行数据分析,可以大大降低低频突变的假阳性率。
接头分类:
(1)根据样本身份证Index位置可以将接头分为单端Index接头和双端Index接头。
单端Index接头:指的是仅在P5端或P7端存在Index(一般在P7端);
双端Index接头:指的在P5和P7端均存在Index。比单端Index能容纳更多数目的样本,被广泛使用。
(2)根据接头是否匹配PCR free建库可以将接头分为长接头和短接头。
长接头又称为完整接头:包括P5/P7+Index序列+Read 1/2,完整接头通过TA克隆的方式连接到DNA片段之后,可以直接上机测序(但是当DNA量不够时还需进行PCR扩增使得产物达到一定的量方可上机测序)。
短接头又叫不完整接头:通过TA克隆方式连接到DNA片段上后,必须与短接头互补的引物进行PCR扩增,扩增就有了完整接头,然后才能上机。也就是说短接头一定要通过PCR扩增,成为完整接头之后,才能上机测序。
参考文献:
1. https://www.zhihu.com/question/265124403/answer/289767986