基于核方法的乳腺结节计算机辅助诊断的研究
本文是计算机论文,计算机论文是计算机专业学校毕业生培养方案中的必修环节。学生通过计算机论文的写作,培养综合运用计算机专业知识去分析并解决实际问题的能力,学有所用,不仅实践操作、动笔能力得到很好的锻炼,还极大地增强了今后走向社会拼搏、奋斗的勇气和自信。(以上内容来自百度百科)今天硕博网为大家强烈推荐一篇计算机论文,供大家参考。第一章 绪论1.1 研究工作的背景及意义乳腺癌是一种常发于女性的癌症类型,其正成为世界上导致妇女死亡的主要病因。据国际癌症研究机构于 2021 年统计,每年约有 168 万乳腺癌新发病例及 52.2万死亡病例。在发达国家中,比利时的乳腺癌发病率最高,其次是丹麦和法国。在当代中国社会,随着人们生活压力的不断增加,我国逐渐成为了乳腺癌的高发区,我国妇女的身心健康也面临着严重的威胁。可触及的乳腺结节,无论是良性还是恶性的,都会威胁着患者的身心健康,而恶性乳腺结节也就是人们常说的乳腺癌。尽早地诊断此病,在良性乳腺结节尚未恶化时尽早治疗,对于提高此病的存活率具有深远意义。因此,准确的病理诊断对进一步的治疗至关重要。在临床上,只能通过一些医疗手段来检测乳腺结节的存在与否,但如何准确地诊断乳腺结节的性质一直是个难题。目前,国内使用最广泛的乳房检查技术是超声检查。超声是安全无痛的,它使用声波来产生乳房的内部结构图像。在检查的过程中,医生首先将探头(换能器)和超声凝胶放置在皮肤表面,探头将高频声波通过凝胶传输到患者体内后,再收集弹回的声波,然后根据这些弹回的声波使用计算机来创建乳腺图像。超声检查不使用电离辐射,因此对患者是没有辐射危险的。钼靶 X 射线虽然也是乳腺结节的检查工具之一,但病体的情况是十分复杂的,它并不能检测到所有的乳腺病症。例如一些乳房损伤和异常可能是不可见的或者难以在钼靶 X 线图像上解释。有许多研究表明,超声和磁共振(MRI)可以帮助补充钼靶 X 线成像技术的不足,但磁共振可能并不适用于所有女性。当乳房有很多腺体和结缔组织时,使用超声检查,可以确定用钼靶 X 线和磁共振技术看不到的异常,总而言之,超声检查更适用于乳房偏多腺体型的中国女性。反之,欧美女性的乳腺多偏脂肪型和少腺体型,其它两种技术可能更适宜欧美女性使用。因此,在本论文中的实验研究都是基于超声图像的。虽然乳腺结节的超声图像为医生提供了丰富的检查信息,但是由于图像质量的参差不齐,人眼视觉认知的局限、医生临床经验的差异等原因,乳腺超声图像中的很大一部分有用的信息并未被医生完全采集到,有可能会造成此病的误诊与漏诊。再者,在超声检查下,良性乳腺结节和恶性乳腺结节的表现会有一定的重合,导致医生难以准确地界定其良恶性质。因此,如何利用计算机辅助诊断技术来尽可能地辅助医生提高诊断此病的准确率,是本文的研究目的。.........1.2 国内外研究现状目前,乳腺结节良恶性的计算机辅助诊断算法研究是医学图像处理的一个热点。国内外有大量相关的研究文献,且大部分的文献都给出分类的准确度。 Hejazi 和 Ho 于 2005 年提出了一种对乳房 X 线照片采用两个阶段的处理,来进行乳腺结节分类的方法[1]。在第一阶段中,系统通过组合使用形态学预处理和区域生长技术在图像中分离出乳腺结节区域。在第二阶段中,根据不同的测量值将感兴趣的区域分类为正常、良性或恶性组织。实验结果表明采用该方法的乳腺结节良恶性的分类,准确率要高于以往的大多方法。 Sheshadri和andaswamy于2006年试图根据乳房X线照片直方图的强度水平对乳腺组织(如脂肪、未压缩脂肪、密度和高密度)进行分类[2]。使用简易的图像处理技术提取统计特征(平均值、标准偏差、平滑度、均匀性和熵)。所提出的方案是使用纹理模型来捕获乳房 X 线图像中的乳腺结节外观。然后将实质密度模式进行建模,即在低维空间中响应的聚类滤波器的统计分布模型。该方法的准确率达到了 78%。 Lladó等人于下一年提出了三种不同的方法来降低乳腺结节分类的假阳性问题[3]。第一种方法是采用主成分分析法即 PCA;第二种方法是在 PCA 方法的基础上对其进行扩展提出了 2DPCA 算法;但最后一种方法是基于局部二进制方法(LBPs)提出的。实验表明,LBPs 和 2DPCA 方法对于降低感兴趣区域的假阳性是高效的,但 LBPs 方法提供了更好和更稳定的结果。 Rejani 和 Selvi 于 2009 提出了一个专注于解决两个问题的新系统[4]。第一个问题是如何检测出肿块,即与图像背景区域对比起来差别很小的可疑区域。他们的肿块检测方法遵循以下方案:(a)乳腺图像的增强定义为图像质量的转换,(b)通过阈值处理对肿块区域进行分割,(c)对肿块区域进行特征提取后,采用支持向量机对其进行分类。该方法获得的准确率为 88.75%。 此外,同年 Aay 提出了一种基于支持向量机和先验特征选择的方法来对乳腺癌进行诊断[5]。实验结果表明,采用合适的 SVM 模型可将准确率提高至 99.51%。 Zheng 于 2021 年提出了一种新的名为 GCD 算法用来检测结节和钙化情况[6]。在分割可疑区域时,使用圆形高斯滤波器。而在分类过程中,从 Gabor 滤波图像中提取边缘直方图描述性特征。实验结果表明,GCD 算法可以运用于乳腺癌的检测。具体地,在检查钙化情况时,当每个图像的假阳性(FTP)为 1.21%时,可实现90%的真阳性(TP),假阳性(FTP)为 1.19%时,真阳性(TP)为 93%。.........第二章 基于核方法的相关算法的研究2.1 核方法介绍机器学习和统计学中的大多数理论与算法已经可以很好地应用于线性情况。但在实际任务中,许多数据的分布都是及其复杂的非线性情况。为了将其转化为易处理的线性问题,研究者们试图将原本线性不可分的数据映射到数据之间存在线性关系的高维特征空间中,然后在此空间中使用线性方法。然而,非线性映射函数的形式与参数难以确定,而且如果直接使用该方法,在高维特征空间运算时可能会产生维度灾难。而聪明的研究者们又发现核函数可以将原始空间中的数据向量作为输入,并返回特征空间中向量的点积。因此可以使用核函数来代替数据的内积。到了 20 世纪 90 年代,核函数方法在模式识别与机器学习领域引起了广泛地关注。 具体地,假设需要构造某个分类学习算法来解决现实任务中的一个分类问题。在构造的过程中训练样例并不是单独出现,而是以成对样例的内积形式出现的。这时并不需要显式地将数据嵌入到高维空间中,而是通过选取恰当的核函数来代替高维特征空间中的点积。在这个空间中,由于核函数的引入,相关的算法可以是线性的。使用这样的核函数作为相似性度量的优点是它允许在点积空间中构造算法。这样,所选取的核函数和相应的学习算法组成了解决该问题的核方法。在核方法的构造过程中,核函数的选取必须是合法的。即该核函数应该满足如下充分必要条件:核函数是 Gram 矩阵,且在所有样本集合的选择下都是半正定的。 核方法可以将非线性问题既巧妙又简便的转化成线性问题,很好地降低了计算的复杂度。同时,现实任务中的需求是多种多样的,可以将不同的学习算法与核函数组合起来,形成多种基于核方法的新技术来针对性地解决不同任务需求[22]。有趣的是,这两部分可以并行进行,即分开设计核函数与学习算法。其中,核函数的设计主要涉及如何选取核函数、设计新的核函数、相关参数的优化等问题。学习算法的设计主要研究的是采用何种学习算法或学习算法的改进问题。采用不同的学习方法与核函数可以构成出各式各样的核方法。两者的配合可适当的解决一些分类与回归问题。...........2.2 统计学习理论在样本数量有限的情况下,基于经验风险最小化的算法常常显示较差的泛化能力,即过拟合问题[25]。理想的机器学习方法应该有较强的泛化能力,并且能够从有限样本中找到尽可能多的信息。统计学习理论能够很好地寻找小样本中的最优解,并且当样本趋于无穷时不需要使用渐进条件。此外,它具有很强的推广价值,适用于许多实际工程问题中的小样本情况的误差诊断。结构风险最小化原理是统计学习理论实际应用的有效工具,它是SVM的基础。 SVM 的优点是它适宜于基于小样本的决策,因为它可以最大限度地挖掘数据中隐含的分类知识,具有突出的泛化能力。 如图 2-2 所示,最小化结构风险并不只是要求经验风险或置信风险某一项趋于极小,而是要求两者相互权衡,来共同趋于最小。总而言之,结构风险最小化准则的基本思想是在机器学习过程中不仅要使经验风险最小,还要使 VC 维尽量小,这样对未来样本才会有较好的推广能力[22]。这时,机器学习算法的学习性能达到最优,既不欠拟合也不过拟合。 结构风险最小化是为了防止在小样本条件下过拟合而提出的策略。所谓的小样本问题是指训练样本的数目与学习机的指数函数集的 VC 维之比是一个较小的值。SVM 能够在小样本训练集上获得比其它算法好很多的分类结果。它之所以能够成为目前比较常用,分类效果较好的分类器之一,主要在于其的优化目标是结构风险最小化,而不是经验风险最小化,有着优秀的泛化能力。........... 第三章 乳腺结节超声图像的降维过程 ....... 223.1 引言 ...... 223.2 主成分分析 ..... 243.2.1 PCA 算法的基本原理 ........... 243.2.2 基于 PCA 算法的乳腺图像降维的实现 .............. 263.3 线性判别分析 ............ 293.3.1 LDA 算法的基本原理 ........... 293.3.2 对比 LDA 和 PCA 算法 ...... 313.4 核主成分分析 ............ 323.5 高斯过程隐变量模型 ........... 383.5.1 隐变量模型 ..... 383.5.2 协方差函数 ..... 393.5.3 基于 GP-LVM 的乳腺图像降维的实现 .... 403.6 多种降维方法的相互对比与分析 ............. 423.7 本章小结 ......... 44第四章 乳腺结节超声图像的分类 .... 454.1 引言 ...... 454.2 近邻分类方法 ......... 474.2.1 近邻算法原理介绍 ............ 474.2.2 近邻算法分类结果分析 ..... 484.3 决策树方法 ..... 504.3.1 决策树算法原理介绍 ........... 504.3.2 决策树算法分类结果分析 .............. 534.4 支持向量机方法 ........ 544.5 本章小结 ......... 57第五章 实验结果与分析 ......... 595.1 引言 ...... 595.2 实验结果总结与对比 ........... 595.3 实验结论 ......... 62第四章 乳腺结节超声图像的分类4.1 引言在第三章中,主要先对乳腺结节超声图像进行了降维预处理。接下来,便要对降维后的图像数据实现良恶性的自动分类,以帮助医生更好的诊断此病。而分类,顾名思义,就是将对象分配到若干个预定义类别中的任务,是包含很多不同应用的常见问题。在分类任务中通常会将数据集划分为训练集和测试集。 训练集中的每个实例包含若干个属性(观察变量)和一个目标值(类标签)。分类任务的目标是基于训练数据构建一个可预测测试数据的目标值的模型。 在本章实验中,原始数据集为 2798 张乳腺结节超声图像,随机选取 1800 张图像作为训练数据集,剩余的图像作为测试数据集。经过 GP-LVM 降维后,得到低维的图像数据集,假设为 X 。随后再将 X 划分为两部分即训练集1X ,测试集2X 。如图 4-1 所示,分类任务的目标是从一组训练数据中学习出分类器以识别新观察值(测试集)的类别。 分类器是一种基于输入数据集来建立分类模型的系统方法。常见的有决策树分类器、 近邻分类器、支持向量机分类器、朴素贝叶斯分类器等等。每种技术都采用了一种特定的学习算法来识别输入数据中属性集和类别标签之间的关系。最终,由学习算法生成的分类模型应该可以很好地拟合输入的训练数据集,并且能够正确地预测测试集或未知记录的类标签。只有达到这样的效果,才可以说这个分类模型的建立是成功的。因此,学习算法的关键目标是建立起具有良好泛化能力的分类模型,即这个模型能够准确地为未知记录分配与其相对应的类别标签。 建立分类器时,首先需要将原始数据集划分为两组,即训练集和测试集。训练集是一组类标签已知的记录,它用来构建分类模型。而测试集是一组类标签未被提供的记录,它用来评价分类模型的性能。具体地,根据训练集建立起分类模型后,再使用该模型对测试集进行分类,最终将会产生正确或不正确的分类预测(完全预测正确的分类模型几乎是不存在的,即使有也要考虑是否存在过拟合)。可通过统计两者的计数来评价该分类模型的分类性能。这些计数可被一种称为混淆矩阵;的表列出。
.........总结本文主要研究了基于核方法的乳腺结节超声图像的计算机辅助诊断技术。主要研究的工作如下:(1)首先总结了国内外乳腺结节辅助诊断系统的发展现状。经调研发现大多辅助诊断系统研究的方向与流程几乎一致,但都未在医学领域取得重大的突破。(2)简要介绍了核方法的基本原理,并阐述了几种基于核方法的常见算法。其中支持向量机和高斯过程隐变量模型是本论文研究的重点。(3)为了能够更好辅助诊断乳腺结节超声图像的良恶性,使后续分类模型具有较小的计算复杂度与良好的预测性。限制分类器中输入特征的数量是十分有必要的。因此,本文在对乳腺结节图像进行良恶性分类之前,先对其进行降维预处理。本文主要研究了主成分分析、线性判别分析、核主成分分析和高斯过程隐变量模型这几种經典的方法。并通过实验对比与理论分析研究这几种降维方法的优劣所在。最后本文决定采取基于核方法的高斯过程隐变量模型的降维结果作为分类器的输入数据。(4)将经过高斯过程隐变量模型降维后的图像数据进行五次随机的有放回采样,最终将得到五组不同的训练集和测试集进行模型平均。本文提出了三种不同的分类方法来构建分类模型,即 -近邻分类方法、决策树方法和支持向量机,并研究这三种方法的适用性与优缺点。经过多次实验,来对比这三种分类器的平均分类准确率。最终可得出选用 RBF 核函数的支持向量机,其分类性能要优于其他分类器。最后为了更深入的研究核函数的选取对算法的影响,本文又为支持向量机选取了不同的常用核函数来对乳腺图像进行分类,选取出了性质较好的核函数即 RBF 核函数。(5)对本文的实验结果进行总结与对比分析,进一步验证基于核方法的算法有利于乳腺结节的辅助诊断。..........参考文献(略)