生物物证供者种族来源推断的SNP体系研究
1 法医 DNA 分型的三代遗传标记概述
1.1限制性片段长度多态性
DNA 遗传分型技术于 20 世纪 80 年代中期问世,给法医学领域带来了一场革命性的变革,迅速提升了执法人员和公安技术人员根据现场物证搜索罪犯的效率。通过 DNA 分型技术进行人类个体识别和亲权鉴定,已经成为现今最有力的执法调查工具。法医 DNA 分析技术经过 25 年的发展,已经由限制性片段长度多态性(Restriction fragment length polymorphism, RFLP)分析技术彻底过渡到了短串联重复序列(Short tandem repeat, STR)DNA 遗传标记的复合检测技术。商品化的 STR 分型试剂盒能够通过一步聚合酶链反应(Polymerase chain reaction,PCR)和毛细管电泳分离,简易、快速的分析 13-15 个常染色体 STRs 基因座和 1个性别 STR 基因座的分型。目前,复合 STR 分型系统已经成为法医遗传学实验室DNA 检测的最主要手段。然而,伴随着医学遗传学研究的快速发展,单核苷酸多态性(Single nucleotide polymorphism, SNP)遗传标记开始逐步成为了法医遗传学研究的重点内容。人类基因组计划完成后,HapMap、HGDP、1000 人基因组计划和 ALFRED 等大规模群体遗传数据库相继建立完成,为与 SNP 相关的生物医学研究奠定了良好基础。SNP 是基因组内单个核苷酸变异所引起的 DNA 序列多态性,其在法庭科学实践中具有潜在的应用价值。与 STR 遗传标记相比,常染色体 SNP 具备在基因组内分布范围广、数量庞大的特点,用于人类个体识别主要有两大优点:(1)SNP 位点遗传稳定性高,几乎为零的循环突变率(10-8)使之更加适用于亲子鉴定;(2)SNP 位点检测所需的扩增片段短,适用于高度降解 DNA 模板的分析,特别是在 STR 分型失败或仅获得部分 STRs 基因座分型的情况下使用;(3)SNP 位点分布在全基因,很多位点在基因区,与肤色、发色、发旋方向、身高、体重、疾病易感性等表性特征相关联。因此,一套完整的个体识别 SNP 系统能够弥补现有 STR 分型方法的不足,针对特殊疑难案件,能够快速、准确、大样本量的分型,并且能够根据分型结果,对来源样本的遗传表型做出推断,因此 SNP 将成为 STR 系统的有力补充。
..
1.2短串联重复序列
短串联重复序列(Short Tandem Repeats, STR)又称为微卫星 DNA,是一种长度多态性遗传标记,在人类基因组中占 5%左右,估计有 20~50 万个,平均每 6~10b就出现一个,因个体间 DNA 片段长度差异而成高度多态性,在基因传递过程中遵循孟德尔共显性方式遗传。绝大多数 STR 序列分布在非编码区,极少数三核苷酸STR 位于编码区。STR 重复单位为 2-6bp,按重复单位碱基数称为二核苷酸序列以及三、四、五和六核苷酸序列,其中四核苷酸 STR 基因座最常用。STR 产生原因复杂,主要有同源重组、基因结构重排和 DNA 分子复制滑动。以 STR 复合扩增为主的一系列检验方法[4],是目前法医 DNA 检验中的常规方法。目前的复合扩增体系已可同时扩增 9-16 个 STR 基因座,个体鉴别能力已超过 DNA 指纹水平。同时,复合扩增技术已经具备较严格的自动化操作程序、完善的质量控制和质量保证措施。标准化的分型数据有利于计算机的数据处理、贮存和网联检索。为建立大规模的法医 DNA 数据库打下良好的基础。
.
2SNP 的法医学分类
2.1个体识别 SNP
STR 作为第二代遗传标记,是当前应用最为广泛的个体识别方法,然而针对一些降解检材,该方法无法完成个体识别的作用时,需要通过其他遗传标记达到该效果。SNP 作为第三代遗传标记,突变率低、扩增片段长度短,适于降解检材的检验,同时,由于 SNP 为双等位基因,一方面使得分析过程更容易自动化,另一方面,其多态信息含量低,需要多个位点联合才能达到个体识别的要求。1999年,Ranajit 等人[7]提出 25-45 个 SNPs 位点就可以达到 CODIS 系统的 13 个 STR基因座的随即匹配概率。对于个体识别 SNP 位点的挑选,耶鲁大学的 idd 实验室在 2006 年提出了筛选个体识别 SNP 位点的标准[8]:1.等位基因的平均杂合度≥0.4。2.不同人群间等位基因频率的差别小,Fst<0.06。3.筛选的 SNP 位点之间互不连锁。目前,国内外已报道了较多的个体识别复合检测体系,如国内的河北医科大学构建的 44-plex SNPs 的复合检测体系[9],中山大学构建的 47-plex SNPs 复合检测体系[10]等。国外的如欧洲的 SNPforID 组织构建的 52-Plex SNPs 复合分型体系[11],他们均采用 Snapshot 方法检测。
..
2.2祖先信息性 SNP
目前 STR 检验所得的个体识别数据仅仅是浩瀚的人类基因组中很微少部分的遗传信息,对于既没有目标嫌疑人,又没有其它线索的案件,虽然可以利用 DNA检验结果进行家系排查,但这无异于大海捞针;。如果能从现场 DNA 样品中获得关于种族地域、外形特征等信息,将会为案件提供更多主动线索。过去研究的 STR、Y 染色体和 mtDNA 等由于携带的信息量少,导致其在这方面应用受限。而在人类基因组的 SNPs 中有一部分是与种族起源相关的,其被称为祖先信息标记-AIMs(Ancestry Informative Marers)。AIMs 包含有种群结构、种内和种间差异相关信息,可以定量的估计某个体可能的地域种族来源。例如,某个体可能具有 90%的欧洲血统和 10%的非洲血统,另一个体可能是 100%的东亚血统。美国 DNAprintgenomics 公司使用高通量的 SNP 检测技术筛出了一系列 AIMs 并就其在法医学中的应用进行了初步的探索,这种方法已经成功应用于实际案例:美国路易斯安那州一例多起强奸杀人案中,对嫌疑人遗留的生物样本进行 AISNPs 位点分析结果显示其具有 85%非裔血统和 15%的印第安人血统,根据这一信息成功找到犯罪嫌疑人,对其进行 STR 基因座分析显示其与来自犯罪现场的生物检材相匹配。Shriver 等(2004)利用 8,525 个常染色体 SNPs 对来自美国黑人、美国白人、中国人和日本人四个群体的 84 个样本进行了个体聚类分析,揭示了人群亚结构在染色体上的不均一分布现象[13]。随后,Shriver 等(2005)分析了 11,555 个 SNPs的数据,对 12 个群体的 203 个个体进行了聚类分析,结果表明人群的遗传关系与地理分布相当吻合。
..
3 SNP 分型方法概述 ....... 18
3.1 基于实验的方法 ...... 18
3.2 基于数据库的方法 ......... 22
4 群体遗传学研究相关参数 ....... 24
4.1 基因频率与基因型频率 ...... 24
4.2 HARDY-WEINBERG 平衡 ......... 24
4.3 DNA 遗传标记的独立性检测 ........ 25
4.4 杂合度 ....... 26
4.5 FST 值 ........ 26
4.6 Δ值 .......... 27
4.7 随机匹配概率 ....... 28
4.8 人群的地理分布..... 29
4.9 人群遗传成分以及个体遗传成分的描述 ......... 31
5 实验方法 ......... 33
5.1 种族推断 SNP 位点的筛选 ......... 33
5.2 SNP 复合体系构建和自动化分析系统研究 ....... 47
5.3 实验过程 ..... 55
5.4 AIMS 位点区分效果评价 .... 59
5.5 复合检测体系构建与样本检验 ...... 59
5.6 样本的人群来源推断....... 60
6 实验结果
6.1 DNA 定量结果
DNA 定量使用 NanoDrop ND-1000 Spectrophotometer,每次加入 1.5 μl DNA溶液。保证每份样本 DNA 的稀释最终浓度达到 10 ng/μl,A260/280 1.88-2.16。35 对引物的琼脂糖电泳结果如图 6.1 所示。所有引物均有明显清晰条带。使用 2%琼脂糖凝胶电泳进行检测;结果表明,每对引物都具有良好的特异性和扩增效率。每份样本 35 个位点的检测总共需要 6μl DNA,所有 35 个 SNP 位点分为 3 组复合反应体系。在所检测的 357 份样本中,理论检出基因型 12495(357×35)个SNP 分型,实际检出基因型 12402 个,检出率为 99.26%。其中,13 份样品由于检出率较低(低于 90%)予以去除。为验证 SNPstream 结果的准确性,我们随机抽取 8 份样品,对 35 个 SNPs 位点进行测序。单位点 PCR 扩增产物经琼脂糖凝胶电泳检测后,送至北京迈奥德恩生物科技有限公司测序。结果发现,所有测序结果与 SNPstream 分型结果完全一致,准确性达到了 100%。
结论
本项目在国内首次建立了一套适宜我国法医学领域的洲际群体来源推断研究体系,包括 AIMs 位点的筛选和确证方法,复合 SNPs 检测体系的构建,种族推断算法和软件系统等,开启了国内法医学领域 DNA 供者特征刻画技术研究。筛选了一组 AIMs 位点,建立了复合检验体系和自动分析软件,即可进行欧洲、亚洲、非洲世界三大人种来源推断。本课题研究内容涉及群体遗传学、法医遗传学、生物学、生物信息学、计算机技术、人类学等多个学科多种技术,又是全新的研究领域,十分具有挑战性。课题组在研究过程中十分注重与外专业和国外先进实验室的沟通和交流。其中,美国耶鲁大学enh . idd教授和加州大学戴维斯分校Michael F Seldin两位教授的实验室在这方面进行了十分系统的研究,课题组积极与对方沟通联系,两位教授先后来实验室进行现场指导,与课题组进行了深入交流,提出了很好的意见,对于本研究起到十分积极的推动作用。在立项和研究过程中课题组积极与本单位的人类学专家、法医学专家沟通交流,探索群体样本的采集条件和采集方法等,得到了相关专家的大力支持;课题研究的位点筛选过程需要应用多种芯片技术平台,而这些平台本单位尚不具备,所以课题组积极与生物芯片北京国家工程中心联系,采取委托加工服务的方式进行高通量的样品检测,从而在最短时间内获取到研究所需的目标信息。总之,突破公安系统的范围,积极开放的研究方式对于课题研究起到事半功倍的推动作用。
参考文献(略)