基因表述数据分析方法及其应用研究
第1 章 绪论
1.1 引言
遗传是生命最本质的内容。被称为遗传学之父的孟德尔于 1866 年提出了遗传因子的概念,从而人类开始了对于遗传现象的思索。1953年科学家发现了DNA分子双螺旋结构,自此生命科学进入了分子研究水平。20世纪80年代,美国国家卫生研究院提出了人类基因组计划(human genome project, HGP)。1990年该计划正式启动,2001 年公布了由美国、中国等 6 国科学家共同完成的人类基因组测序工作草图,2002 年经过详细注解并具有较高精确度的人类基因组序列绘制成功。随着HGP的完成,由三十多亿碱基对构成的基因组被精确测序,从此人类进入了基因水平研究时期,生命科学也随之进入了以研究基因功能为主的后基因组时代,也称为功能基因组研究(Functional Genomics)。
如何在基因组水平分析基因组序列信息及基因功能,对个体在不同的生理现实下大量基因表述进行平行分析,使其对人类重大疾病的发生机理、病情诊疗、药品研发领域发挥重要作用,是后基因组研究的核心内容。 然而,如何从海量的基因表述信息中高效而又准确地检测出基因表述水平, 找出潜在的基因功能,进而发掘其在生命过程中所担负的角色,是后基因组时代不得不面对的重要问题。在此需求的影响下,20世纪90年代,高通量生物学检测技术基因芯片技术应运而生。
基因芯片能够检测出遗传所引起的基因表述水平的改变和不同条件下的基因转录变化等内容。基于DNA微阵列技术得到的海量的基因表述数据(Microarray Gene Expression Data)中蕴含着丰富的基因活动信息。这些信息对于生物医学的研究有着重要的作用,从中可以获取到细胞的生理现实、基因表述调控信息以及基因功能等信息。
1.2 研究背景和现状
1.2.1 基因表述数据分析研究进展
微阵列(Microarray)技术,亦称为生物芯片(Biological Chip) 技术。作为一种高通量检测技术,它可以同时检测几十万个大分子生物表述水平,大规模的提高了检测效率,是生物信息学领域具有里程碑式意义的一项重大技术革新。生物信息学研究的一项重要课题就是对芯片上成千上万个基因点的杂交信息进行解读,从而揭示生命特征及规律。因此,对于基因芯片数据我们需要综合数据建模方法、计算智能算法,以及数理统计等方法进行深入的分析与研究,才能从中挖掘出潜在的、具有生物学意义的信息。然而,不同的数据分析处理方法会得到截然不同的分析结果,所以对于不同类型的基因芯片数据选取适当的分析方法显得尤为重要。
目前,根据研究的目的不同,主要将基因芯片数据分析方法分成如下六类:
(1) 差异表述基因分析:预测疾病的预后通常采用判别分析的统计方法,差异表述分析技术可找到表述水平发生显著变化的基因;另外,基因表述数据普遍具有高维和样本量小的特点,通过筛选差异表述基因可以对数据源起到降维的目的,便于进一步分析。
差异表述基因分析方法主要有倍数法、t检验法以及方差分析方法等等。
倍数法出现较早也较为简易,主要用于实验初筛。核心思想是将基因芯片数据中实验组样本值与对照组样本值直接进行比较,通过比值来判断上调和下调基因(2倍以上为差异表述基因)。结论过于简易是倍数法的主要缺点,使用这种方法很难发现高层次的功能线索,其结果所作出的推测同样具有一定的盲目性。
第2 章 基因表述数据分析方法及蛋白质复合物识别
2.1 引言
在分子生物学领域里,微阵列(Microarray)技术是一项具有里程碑式意义的重大突破,它可以同时测量不同样本中成千上万个基因在不同环境和不同现实下的表述水平。基因表述数据是基于DNA微阵列技术所产生,反映了从基因芯片上直接或间接测量得到的基因转录产物mRNA 的丰度值的一组数据。通过对这些数据中所隐含的基因活动信息进行分析,就可以解答一些生物学领域的问题。如基因的表述在不同环境中有哪些差异,基因的表述在特定条件下有哪些变化,基因之间有哪些相关性,以及在不同条件下基因的活动受到哪些影响等等。这些信息和数据对于医学临床诊断、揭示疾病发生机制和药物疗效判断等方面的研究起到十分重要的作用。
最近,DNA微阵列技术发展态势迅猛,因此,基因表述数据也就变得越来越易于获取。通过分析和研究基因表述数据,可以获取基因功能和基因表述调控信息,进而从分子层面了解细胞的生理现实,如细胞是否处于正常现实,药物对肿瘤细胞是否有效等。基因表述数据分析是生物信息学领域的一项重要研究领域,也是DNA微阵列技术被广泛应用的一个关键原因。
本章首先简要介绍了cDNA和寡核苷酸芯片技术,然后列举了基因表述数据分析的主要方法,其中包括基因表述数据的预处理方法、差异表述基因识别方法、基因聚类分析方法、基因功能富集分析方法、蛋白质子网模块识别方法,以及常用的基因注释数据库、数据分析软件和相关网络资源等内容。
2.2 DNA 微阵列技术
2.2.1 cDNA 微阵列
1995 年,cDNA微阵列技术在斯坦福大学被研制成功,并顺利将其应用于基因表述数据的分析。基本技术过程如下:将细胞内的mRNA逆转录成cDNA,再与之分离,将分离后所得到的全部或部分cDNA (长度一般大于 200 个碱基对)当作探针使用,一般来讲,这些探针的来源都是已知的,或者是可以被测出序列的;然后按照阵列的形式,使用机器手将探针点到玻璃片上,此时玻璃片上的每一个点只包含一种cDNA分子,cDNA微阵列就这样制作成功了。当我要使用cDNA微阵列时,第一步就要从待测细胞或组织中提取mRNA样本并将其逆转录成cDNA,再用荧光素标记;第二步把荧光标记的cDNA与玻璃芯片上探针进行杂交,整个杂交过程结束后,将微阵列清洗整洁;最后一步用激光显微镜检测杂交后的芯片,扫描获取荧光图像,进而得到cDNA芯片上每一点的荧光强度值,就可以分析出样本中存在的 mRNA 丰度信息,也就反应出与探针所对应的基因的表述水平。图2.1是典型的DNA芯片荧光扫描分析图,可明显呈现出亮度的不同。
我们在制造cDNA微阵列的时候,样点可能是不规则排列的,大小可能也是不同的。因此,直接比较不同微阵列扫描图的荧光强度是不准确的。可以采用双色荧光系统解决正点和点之间的差异问题。分别准备两个样本:一个称为控制样本(control sample)或对照样本(reference sample),该样本中的cDNA一般使用绿色荧光素(Cy3)来标记;另一个称为测量样本,该样本中的cDNA一般用红色的荧光素(Cy5)来标记。实验方案虽然一样,但这两个样本要分别使用不同荧光素标记各自的cDNA,将两个样本中标记后的cDNA按1:1的比例进行混合,之后与芯片上cDNA微阵列进行杂交,扫描杂交后的芯片,再分别获取荧光图像。
第 3 章 基因表述数据分析工作流 ........... 31
3.1 引言 ................. 31
3.2 方法设计 ...................... 31
第 4 章 基因表述谱模拟数据生成算法 ................ 41
4.1 引言 ......... 41
4.2 基于 -MEDOIDS 的基因表述谱模拟数据生成算法设计 ........... 41
第 5 章 一种简易高效的差异表述基因识别算法 MRP .................... 41
5.1 引言 .......................... 47
第7 章 PPI 网络中基于基因表述数据的子网模块识别算
7.1 引言
蛋白质是细胞功能和疾病过程必不可少的物质。目前,通过高通量技术已获得了大量的蛋白质--蛋白质相互作用(PPI)数据。我们可以将这些数据以网络的形式表现出来,而这些 PPI 网络模块通常代表着生物体中许多不同的功能或者是一些已知的、复杂的和新的代谢通路。因此,大量的蛋白质相互作用数据被测出。生物研究人员通过一些方法已经从这些已知的蛋白质相互作用网络中检测到了很多生物功能模块。然而,很多方法并没有考虑到这些蛋白质网络模块的生物学意义。
在本章中,我们提出了一种基于基因表述数据的蛋白质相互作用网络中子网模块识别算法,并将该算法应用于人类蛋白质相互作用网络及肺癌的基因表述数据中。
我们首先通过差异表述基因识别算法找出了肺癌基因表述数据中的差异表述基因。这些差异表述基因作为种子被加载到人类蛋白质相互作用网络中。我们使用种子扩展方法搜索蛋白质子网模块,通过 GO 注释(包括生物过程、分子功能和细胞组分)和EGG通路富集方法对子网模块进行评估。实验结果表明,通过该方法所确定的模块具有显著的统计意义。
第8 章 总结与展望
8.1 本文工作总结
所谓基因表述数据正是基于DNA微阵列技术,反映的是在基因芯片上直接或间接测量得到的基因转录产物mRNA 的丰度值的一组数据。通过对这些数据中所隐含的基因活动信息进行分析,进而解答生物学领域相关问题。在生物信息学和计算机科学等多学科交叉研究的背景下,本文展了对于基因表述数据相关分析方法的研究工作,重点研究差异表基因识别算法及该算法在蛋白质相互作用网络中子网识别领域的应用。
(1)本文首先提出了一种系统的基因表述数据分析工作流程,对一些主要的基因表述数据分析方法进行整合,最后通过富集分析验证了工作流程的可行性及有效性。
(2)由于昂贵的成本和过高的操作复杂性两种不利因素的影响,在一些研究中很难通过实验的方法去获取有效而充足的基因表述数据。针对此问题,本文提出了一种基于中心点聚类方法的基因表述模拟数据生成算法。算法在对原始数据特征的深入分析基础上,创建出与原始数据具有相同分布特征的模拟数据集。
(3)提出了一种新的基于统计排名技术、简易高效的差异表述基因识别算法MRP。算法能有效排除基因芯片数据预处理方法对差异表述基因分析算法计算结果的干扰,并且通过对矩阵整体排序计算,得到具有高准确度的统计排名结果。通过对模拟数据,小鼠脂代谢数据以及硒影响下拟南芥根部基因数据的实验分析,证明了算法的有效性。
(4)提出了一种新的基于元分析的具有伪差异表述基因识别功能的差异表述基因算法RSDM。该方法能够对多组同质芯片数据进行整合分析,在找出差异表基因的同时经过进一步分析,找出存在的部分伪差异表述基因,以及在首次分析中遗失的部分真正的差异表述基因。通过对模拟数据、吸烟者与非吸烟者肺部大气管上皮细胞数据以及拟南芥根部基因数据的实验分析,证明了算法的有效性。
(5)后基因组时代,一个主要的工作是从网络水平发现具有生物学意义的功能模块。提出了一种基于PPI网络与基因表述数据相融合的蛋白质子网模块识别算法。将通过差异表基因识别算法找到的肺癌差异表述基因作为种子装载到人类蛋白质相互作用网络中,采用种子扩展方法搜索蛋白质子网模块,通过GO注释和EGG通路富集方法对子网模块进行评估。实验结果表明,通过该方法所确定的模块具有显著的统计意义,进而揭示了更多的与癌症相关基因和代谢通路。
参考文献(略)