基于GEP
第一章 绪论
目前,乳腺癌[3]早期检测的主要手段是医学影像技术。主要包含乳腺 X 光图像、乳腺超声、核磁共振图像等技术。其中,乳腺 X 光片具有一些明显的优点:比如:费用低廉、简便易行,分辨率高,给患者的痛苦相对较小,不受患者年龄、体型的限制等等,因此,乳腺 X 光片被认为是最简便、最可靠的首选方法。肿块与钙化点是乳癌在 X 光片的直接表征。医务人员通常通过对这两个特征的分析来判断疾病。但是,到底是什么诱因导致产生了乳腺癌,我们目前还无法确定。根据 GE 医疗集团(中国)在 2006 年做的一次调查统计可以知道:乳腺癌早起的患者治愈率高达 95%,花费也仅仅在 10000 元左右,而一旦到了晚期的治愈率就只有 16%了,而且花费也很高,超过 10 万元。及早的发现乳癌,不仅可以提高存活率,还可以节约一大笔费用,这对于人均收入偏低的发展中国家来说,显得尤为重要。因此,我国要将早发现早治疗;作为控制乳腺癌的基本策略,要开展针对全国适龄女性同胞的早期乳癌筛查工作。欧美等国家因为经济较发达,很早就开展了普查工作,相应降低了一定的死亡率。在中国,由于各地经济发展水平不均衡,诊断的资源有限等,进行普查相对较晚。目前,针对女性同胞的乳腺癌普查已经在很多大城市陆续开展开来,参加检查的女性达到几百万人,如此大规模的普查,产生了海量的病例。
..........
第二章 决策树与基因表述式编程
2.1 决策树理论概述
决策树(decision tree)[38],顾名思义,就是一种树,它是根据不同的抉择策略生成的树。在众多分类算法中,决策树一直是一种十分典型的分类方法,既可以用来进行数据分析,也可以用在预测模型上。该类方法最早是在上个世纪 60 年代的时候提出来的,它用到的是一种逼近离散值的方法。从根本上来说,决策树其实就是通过多种规则对某种数据分类的一个过程。通常情况下,一棵决策树由决策节点、叶子和分支三部分组成。在决策树中最顶端的节点我们称之为根节点,整棵树也是从这里开始。其中每个分支都是一个节点或者叶子。每个节点又代表一个问题或者决策。与之相对应的是属性值。单个叶节点对应的是分类结果。图 2-1 所示的就是一棵典型的决策树:这个例子是用来分析不同人群是否需要购买电脑。决策的属性是是否买电脑;。它分为买与不买两类,因此具有两种不同的类。条件属性有年龄、教师、城乡。决策树方法主要有以下几个与众不同的优势:(1)我们不用去了解其很多的背景知识,只要是可以用属性→结论的方式表示出来的实例,都可以用该算法学习;(2)整个的学习过程都是用 If,Then 的方式来表示,因此推理过程容易理解;(3)根据实例的属性变量特点就可以完成整个推理过程;利用决策树进行数据挖掘,通常情况下有如下的步骤:数据预处理、决策树挖掘操作,模式评估和应用。决策树已经在很多领域中得到了应用,如商业、人力资源、遥感影像、分子生物学等。下面介绍几个經典的决策树算法。
2.2 基因表述式编程
此时,ORF 的终止点向右移动了 1 位,即第 8 位。从上面的例子可以看出,即使基因的长度是固定的,它们仍可以被转换成不同的大小和形状的表述式树。简易的表述式树仅包含一个节点,即首个元素就是终点;复杂的可能是由基因包含的所有节点构成一颗树。我们很简易的就能看出,不论我们怎样去修饰基因组,生产的表述式树都是正确的。这样就一定能保存基因的整个结构,即要保证基因的头部跟尾部一直存在边界并且基因的尾部不可以有函数符号。
第三章 基于 GEP 的集成决策树融合分类算法 ............................................17
3.1 决策树分类模型........................................17
3.2 多决策树建模........................................................18
第四章 基于 GEP-DT 的乳腺 X 线图像分类器..........................................26
4.1 图像预处理.............................................26
第五章 总结与展望..................................43
5.1 本文工作总结............................................43
5.2 今后工作展望.............................................43
第四章 基于 GEP-DT 的乳腺 X 线图像分类器
4.1 图像预处理
由于拍摄 X 线片时存在的客观因素,如操作人员的经验各异,曝光时间的不同,传输过程中的污染等,另外,乳腺图像里的软组织大多数具有相似的密度,容易造成图像质量的参差不齐。为了统一图像的质量,方便后续的操作,我们要先进行图像预处理。具体步骤为:首先对图像进行灰度归一化处理,将图像的灰度调整到一个统一的范围里,然后对图像进行滤波去噪处理,消除图像中的噪声,最后是图像增强。其流程图如图 4-1 所示。下面详细的介绍其基本原则和具体步骤。在乳腺 X 线成像中,钙化点由于吸收了较多的 X 线,因此成像中表现亮度较高的亮点,其余的致密组织吸收的 X 线少一些,因此表现出来的亮度要低一些。由于光照强度的改变,曝光时间不同,我们会得到亮度不同的乳腺 X 线图像。因此,要先进行灰度归一化处理,将灰度值统一调整到 0~255 的范围中。其具体步骤为:遍历整个乳腺 X 线图像,找出其最大值和最小值,然后用公式(4-1)进行归一化处理。
4.2 乳腺区域提取
我们从 MIAS 数据库获得的乳腺 X 线图像,因为图像的分辨率高,占用的存储空间大,因此在处理过程中耗时十分长。而一幅乳腺 X 线图像通常由标记区域、背景区域和乳腺区域组成。标记区域里包含图像的编号,拍摄角度等图像基本信息。背景区域的灰度值十分低,与乳腺区域相比,有十分明显的对比度。乳腺区域对比度相对较高,且包含了所有的可疑病变目标。我们所检测的钙化点包含在乳腺区域,且标记区域的标记信息的灰度值十分高,类似于钙化点,会增加检测的难度,所以为了减少运算量,提高运算时间,同时可以避免背景信息和标记信息的干扰,提高检测准确率,我们考虑缩小处理目标,提取出乳腺区域,可以减少后续特征提取时的运算量。
.........
第五章 总结与展望
5.1 本文工作总结
本文为了提高乳腺癌辅助诊断的准确率,研究了乳腺 X 线图像处理领域的相关技术和算法。并从数据挖掘的角度出发,研究了决策树、基因表述式编程等算法,提出了改进的GEP-DT 算法,并将其用于乳腺 X 线图像的分类诊断中。本文的主要工作如下:(1)介绍了乳腺癌病变的相关知识,包括乳腺癌病变表现的征象及相关的影像技术检查手段,并分析了乳腺 X 线辅助系统的背景和意义,说明构建诊断系统的重要性。(2)提出了基于 GEP 的集成决策树融合算法(GEP-DT 算法):详细介绍了决策树和基因表述式编程的基本原理以及优缺点,提出了将决策树和 GEP 相结合的思想,首先将决策树算法(ID3,C4.5,CART,SLIQ 等)构建为多决策树,每个决策树就是一个基因,组成多基因染色体,创建初始种群,进行适应度评估,运用 GEP 遗传算子进行操作,得到最优个体。最后,通过实验,表明 GEP-DT 算法的分类精度更高。
5.2 今后工作展望
虽然本文针对乳腺 X 线图像的分类取得了一定的成果,但是在以下几个方面仍然需要改进:(1)由于医学图像所包含的非结构化深层信息十分大,对象复杂,且不同的疾病具有不同的影像学特征,针对不同的疾病开发的挖掘算法具有唯一性。因此,要进一步扩展算法的应用范围,使其能具有普适性。(2)本文提出的 GEP-DT 算法在一定程度上提高了分类的准确率,但是性能还不是很完善,可以尝试将粗糙集用于数据集进行属性约简,减少运行所需的时间。这也是本文下一步要做的工作。
.............
参考文献(略)