基于三维卷积神经网络深度学习的肺结节良恶性的鉴别诊断

2024-08-14 来源：乌哈旅游

中国医学影像学杂志 2019年第27卷第10期影像技术学•论著

王风，王磊，李囡，杨志*

北京大学肿瘤医院暨北京市肿瘤防治研究所核医学科，恶性肿瘤发病机制及转化研究教育部重点实验室，北京 100036； *通讯作者杨志 pekyz@163.com

【基金项目】国家自然科学基金（81571705，81871386）；北京市自然科学基金（7184195）

【摘要】目的开发一种三维（3D）卷积神经网络（CNN）深度学习模型，用于鉴别诊断肺部CT图像的良、恶性结节，并预测肺结节的恶性程度。资料与方法基于3D卷积设计4种3D CNN架构以分析连续多张图片数据。提取图像特征并进行分类。使用美国癌症协会发布的LIDC-IDRI影像数据集进行训练、测试和验证各模型。以受试者工作特征（ROC）曲线下面积（AUC）及其准确度、敏感度和特异度表征各模型的效果。结果在肺部结节和非结节的鉴别诊断中，开发的3D CNN-3模型的ROC曲线AUC最高（0.959），同时具有最高的特异度（0.946）；在肺部结节恶性程度预测能力方面，3D CNN-3模型亦获得最高的AUC（0.981），同时具有最高的灵敏度（0.936）。结论开发出3D CNN-3深度学习模型在CT图像肺部结节良恶性的鉴别诊断和恶性程度预测方面表现出良好的性能。

【关键词】孤立性肺结节；肺肿瘤；肺疾病；体层摄影术，X线计算机；神经网络（计算机）；深度学习；诊断，鉴别【中图分类号】R734.2；R445.3 【DOI】10.3969/j.issn.1005-5185.2019.10.016

Deep Learning Based on Three-dimensional Convolutional Neural Network for Differential Diagnosis of Benign and Malignant Pulmonary Nodules

WANG Feng, WANG Lei, LI Nan, YANG Zhi*

Key Laboratory of Carcinogenesis and Translational Research of Ministry of Education (Department of Nuclear Medicine, Peking University Cancer Hospital & Institute), Beijing 100036, China; *Address Correspondence to: YANG Zhi; E-mail: pekyz@163.com 【Abstract】Purpose To develop a three-dimensional (3D) convolutional neural networks (CNN) deep learning model for differential diagnosis of benign and malignant pulmonary nodules in CT images, and to predict the malignant degree of pulmonary nodules. Materials and Methods Four 3D CNN architectures based on 3D convolution were designed for analyzing the data of consecutive multiple images. Image features were extracted and classified. Each model was trained, tested and validated using the LIDC-IDRI image data set published by American Cancer Society. The area under the curve (AUC) of the receiver operating characteristic (ROC) curve, the accuracy, sensitivity and specificity were used to characterize the effects of each model. Results In the differential diagnosis of pulmonary nodules and non-nodules, the 3D CNN-3 model had the highest AUC of ROC curve (0.959) and the highest specificity (0.946). In the prediction ability of malignancy degree of pulmonary nodules, the 3D CNN-3 model also showed the highest AUC of ROC curve (0.981) and the highest sensitivity (0.936). Conclusion The developed 3D CNN-3 convolutional neural network deep learning model demonstrates a good performance in the differential diagnosis of benign and malignant pulmonary nodules and in the prediction of malignancy degree. 【Key words】Solitary pulmonary nodule; Lung neoplasms; Lung diseases; Tomography, X-ray computed; Neural networks (computer); Deep learning; Diagnosis, differential

Chinese Journal of Medical Imaging, 2019, 27 (10): 779-782, 787

最新癌症统计数据显示，癌症的发病率和病死率呈上升趋势，而肺癌居癌症病死率的首位[1]。低剂量CT筛查可有效降低肺癌的病死率[2-4]；但影像学检查并不能区别某些具有相似影像学表现的肺部疾病。肺部结节良恶性的鉴别诊断往往需要进行有创性的穿刺活检加以确认[5]。随着计算机软硬件的提升和大数据分析方法的进步，以深度学习为代表的人工智能技术已

779

经进入医学影像诊断领域。人工智能辅助诊断通过对

医学图像进行识别和分类，发现影像专业医师无法鉴别或忽略的影像学特征，使医学影像诊断更加准确客观，进而提高影像学检查的鉴别诊断效能[6-10]。

深度学习方法已经成功运用于关节软骨像分割[11]、肺结节良恶性辅助诊断[12]、前列腺癌评分[13]、胃癌诊断评估[14]以及乳腺癌筛查[15]等多种疾病诊断的研究

影像技术学•论著中国医学影像学杂志 2019年第27卷第10期

中。本文使用美国癌症协会发布的LIDC-IDRI影像数据[16]，开发三维（3D）卷积神经网络（convolutional neural networks，CNN）深度学习模型用于肺部结节和非结节的鉴别诊断以及恶性程度预测，通过训练、测试并验证模型的准确度、特异度和敏感度，从而为开发出最优诊断模型提供参考。 1 研究方法

1.1 3D CNN深度学习模型建立卷积神经网络是一种深层模型（多层的神经网络）。它与普通深层网络的不同在于其使用权值共享网络结构。这一方面使之更类似于生物神经网络；另一方面也减少了权值等待估计参数的数量，从而改善了网络模型的复杂度。从结构上看，CNN主要由卷积层、子采样层和全连接层组成，可训练滤波器和局部邻域池化操作交替地应用于原始输入图像，以此形成越来越复杂的特征层次结构。既往大多数研究基于临床CT图片训练对肺结节良恶性分类的模型时，主要应用CNN识别病灶的单张图片，是典型的二维卷积神经网络（2D CNN）[17]。然而，这种方法并未考虑病灶横跨多个连续图片中的相关、渐变等信息。为有效地将病灶分析中连续图片全貌信息进行结合，本研究使用在CNN的卷积层中执行3D CNN的方法，从而在识别肺结节良恶性的同时捕捉其立体空间的区分特征（图1）。

的尺寸仍然保持47×47的维度。然后经过1项Maxpooling操作后，图像尺寸减少为23×23。再次重复1次卷积和Maxpooling操作，图像尺寸减少为11×11。为防止过拟合，上述操作后紧跟1项dropout操作（随机舍弃50%神经元）。然后用Flatten层展开所有数据后进入全连接层（神经元个数128）。上述整个过程中，3D卷积核的数量保持不变。然后再经过一次dropout操作（随机舍弃50%的神经元）进入全连接层（神经元个数128），最后使用softmax函数进行肺结节分类判断。

Conv: 卷积层 Act: 激活层 Pool: 池化层

FLA: 平滑展开层 FC: 全连接层 Drop: Dropout层

输入模块平滑展开块卷积模块全连接块池化模块输出模块

module_id

filters@depth×height×width

图2 3D CNN-1模型网络结构

图3展示了3D CNN-2架构。该架构与3D CNN-1的不同之处在于网络层数加深。3D CNN-2架构在重

复了最初2次卷积和Maxpooling操作后，又增加了3层卷积+1次Maxpooling操作的设计，图像尺寸也进一步减小为5×5。

图像

建立3D CNN模型

根据图片判断良恶性

Conv: 卷积层 Act: 激活层 Pool: 池化层

FLA: 平滑展开层 FC: 全连接层 Drop: Dropout层

图3 3D CNN-2模型网络结构

图1 3D CNN深度学习模型判断肺结节良恶性的框架

图4展示了3D CNN-3架构。该架构较3D CNN-2网络层数进一步加深，开始2次3D卷积1次Maxpooling操作后连接3次3D卷积1次Maxpooling操作，然后再做4次3D卷积1次Maxpooling操作后才开始1项dropout操作（随机舍弃50%神经元）。dropout操作后的网络结构设计与上面的模型一致。

1.2 3D CNN模型网络架构的搭建在输入数据相同位置上执行多种卷积计算，可提取出多种类型的特征；基于3D卷积设计出各种3D CNN架构来分析连续多张图片数据。本文设计并比较了4种3D CNN网络架构，从相邻的病灶图片中生成多个信道，并在每个信道中执行卷积等操作以获得不同的特征表示（图2~5）。

图2展示的3D CNN-1架构中，以样本病灶质心为中心、大小为47×47的连续5张切片图像作为3D CNN的输入。第1层卷积后得到32个特征图，图像

780

图4 3D CNN-3模型网络结构

中国医学影像学杂志 2019年第27卷第10期影像技术学•论著

图5展示了3D CNN-4架构。该架构与前面3个3D CNN架构的区别为：①这一架构借鉴了残差网络restnet设计每隔几层输出，并与几层前的输入合并作为下一层的输入，以减少因网络层级加深带来的梯度弥散等问题；②卷积核的个数每隔几层做一次增加操作；③中间卷积过程并未进行Maxpooling操作。

练、20%用于测试。最后以验证集的受试者工作特征（ROC）曲线下面积（AUC）的准确度、敏感度和特异度表征各模型的效果。 2 结果

2.1 肺部结节和非结节的鉴别诊断在区分结节与非结节（S0比S1-5）的情景下，获得4个3D CNN深度学习模型的ROC曲线及性能，见图6和表1。其中3D CNN-3模型具有最高的ROC曲线下面积（0.959），同时具有最高的特异度（0.946）。3D CNN-1模型取得了最高的准确度（0.904）和敏感度（0.913）。

1.0 0.8 0.6 0.4 0.2 0

ROC-3D-CNN-1 (area=0.95)

ROC-3D-CNN-2 (area=0.95) ROC-3D-CNN-3 (area=0.96) ROC-3D-CNN-4 (area=0.91) Luck

图5 3D CNN-4模型网络结构

1.3 三维卷积神经网络模型训练和验证将3DCNN的训练集数据划分为由80%的包含结节组成的训练组和剩下20%的测试组，每次训练开始时随机进行分配。训练持续20~100个epoch，batch size为20~64。在每个epoch结束后，如模型损失得到改善，模型权重的检查点将被保存。本文最终保留了测试部分中具有最高精度的3个检查点的模型权重。为减少过度拟合，本研究采用数据增强策略，其中每个输入图像在X和Y方向上随机移位达30%，并随机在0°和180°之间旋转。训练结束后，本研究使用“验证”集评估模型的最终表现；使用以Tensorflow为后端的Keras包用于CNN模型的训练、测试和验证。

1.4 数据来源和处理本研究使用美国癌症协会发布的LIDC-IDRI影像数据，LIDC-IDRI数据集包含1018名患者的CT影像和诊断数据，图像结节由4位放射科医师进行标记和分类：“非结节”“结节<3 mm”和“结节≥3 mm”，其中“结节≥3 mm”每个结节均给予恶性程度的评分。1分：“极不可能”；2分：“不太可能”；3分：“不确定”；4分：“中度可能”；5分：“非常可能”。其相对应的数据集表示为S1、S2、S3、S4、S5，S0表示为非结节数据集[16]。

本研究设计并测试了2种情景下的模型性能：一是模型对结节与非结节的鉴别区分能力测试（S0比S1-5），共处理了1067个结节、1056个非结节；二是模型对结节良恶性的预测能力（S1比S45），将S1数据集结节指定为良性类，将恶性肿瘤结节=4或5的结节（S45）指定为恶性类，共处理了250个S1结节和270个S45结节。模型建立过程中，数据将被随机分配到完全独立的训练和测试集中，其中80%用于训

781

True Positive Rate 无标记：Add

Conv：卷积 Act：激活 PL：池化 FLAT：展开 FC：全连接 Drop：Dropout

Layer:1个神经元 Layer:24个神经元 Layer:48个神经元 Layer:单维度向量

Layer Name Size×Size×Size 神经元数

图6 各模型的肺部结节非结节鉴别ROC曲线（S0比S1-5）表1 各模型的肺部结节非结节鉴别的ROC曲线性能（S0比S1-5）模型 3D CNN-1 3D CNN-2 3D CNN-3 3D CNN-4 0.2 0.4 0.6 0.8 1.0

False Positive Rate

AUC 0.951 0.952 0.959 0.908 准确度 0.904 0.891 0.901 0.875 敏感度 0.913 0.852 0.853 0.842 特异度 0.904 0.925 0.946 0.891 2.2 肺部结节恶性程度的预测能力在进一步鉴别诊断肺部结节良恶性（S1比S45）的情景下获得4组3D CNN深度学习模型的ROC曲线及性能，见图7和表2。其中3D CNN-3模型的ROC曲线下面积最高（0.981），同时具有最高的敏感度（0.936）。3D CNN-1模型获得最高的准确度（0.921）和特异度（0.949）。

1.0 0.8 0.6 0.4 0.2 0

ROC-3D-CNN-1 (area=0.94) ROC-3D-CNN-2 (area=0.93) ROC-3D-CNN-3 (area=0.98) ROC-3D-CNN-4 (area=0.95) Luck

True Positive Rate

图7 各模型的肺部结节恶性程度预测能力的ROC曲线（S1比S45）

0.2 0.4 0.6 0.8 1.0

False Positive Rate

影像技术学•论著中国医学影像学杂志 2019年第27卷第10期

表2 各模型的肺结节恶性程度预测能力的ROC曲线性能（S1比S45）模型 3D CNN-1 3D CNN-2 3D CNN-3 3D CNN-4 参考文献

[1] Rebecca LS. Cancer statistics. JAMA, 2013, 310(9): 982. [2] Atwater T, Cook CM. Massion PP. The pursuit of

noninvasive diagnosis of lung cancer. Semin Respir Crit Care Med, 2016, 37(5): 670-680.

[3] Aberle DR. Implementing lung cancer screening: the US

experience. Clin Radiol, 2017, 72(5): 401-406.

[4] National Lung Screening Trial Research Team, Aberle DR,

Adams AM, et al. Reduced lung-cancer mortality with low-dose computed tomographic screening. N Engl J Med, 2011, 365(5): 395-409.

[5] 张艳, 吕发金, 褚志刚, 等. 基于CT薄层影像特征的肺

结节良恶性评估. 中国医学影像学杂志, 2019, 27(3): 182-187.

[6] Krizhevsky A, Sutskever I, Hinton GE. Image net

classification with deep convolutional neural networks. Advances in neural information processing systems. 2012. [7] Llobet R, Toselli A H, Perezcortes J C, et al. Computer-aided

prostate cancer detection in ultrasonographic images. Pattern Recogn, 2003, 2652:411-419.

[8] Li Q, Cai WD, Wang XG, et al. Medical image classification

with convolutional neural network. 2014 13th International Conference on Control Automation Robotics, 2014. [9] 陈诗慧, 刘维湘, 秦璟, 等. 基于深度学习和医学图像的

癌症计算机辅助诊断研究进展. 生物医学工程学杂志, 2017, 34(2): 314-319.

[10] 李赟铎, 宫恩浩, 李睿, 等. 深度学习技术与医学影像--现状及未来. 中华放射学杂志, 2018, 52(5): 321-326. [11] Prasoon A, Petersen K, Igel C, et al. Deep feature learning

for knee cartilage segmentation using a triplanar convolutional neural network. International Conference on Medical Image Computing and Computer-Assisted Intervention, 2013.

[12] Gierada DS, Politte DG, Zheng J, et al. Quantitative

computed tomography classification of lung nodules: initial comparison of 2- and 3-dimensional analysis. J Comput Assist Tomogr, 2016, 40(4): 589-595.

[13] Niaf E, Rouvière O, Mège-Lechevallier F, et al. Computer-aided diagnosis of prostate cancer in the peripheral zone using multiparametric MRI. Phys Med Biol, 2012, 57(12): 3833-3851.

（下转第787页）

AUC 0.944 0.930 0.981 0.948 准确度 0.921 0.893 0.918 0.881 敏感度 0.891 0.926 0.936 0.878 特异度 0.949 0.875 0.923 0.878 3 讨论

Causey等[18]提出的卷积网络深度学习模型CNN 47取得了较高的AUC值，显著高于既往文献报道结

果。本文将CNN 47作为对照模型与本模型进行比较。在结节与非结节的区分（S0比S1-5）情景下，3D CNN-3模型AUC（0.959）高于CNN47对照模型的AUC（0.949）；鉴别诊断肺部结节良恶性（S1比S45）的情景下，3D CNN-3模型AUC（0.981）亦高于CNN47对照模型的AUC（0.974）。本文设计的模型性能均优于参照模型。

3D CNN-1模型较CNN47及其他网络层数最少，其与本文的样本规模较为适配，利于在参数空间充分寻优。同时其使用最大池化避免了平均池化的模糊效果，使其在ACC上表现最优。3D CNN-3模型较CNN 47模型的优点在于使用多个连续的更小观察窗，使得在相同感知野的情况下，提升了网络深度，在一定程度上提升了神经网络的效果。2个3×3的卷积层串联相当于1个5×5的卷积层，3层3×3的卷积层相当于7×7的卷积层。将1个具有较大感受野的卷积替换成多个具有较小感受野的卷积串联，其拥有更多的非线性变换，从而对特征的学习能力更强。而3D CNN-4模型再加深网络，其深层网络带来的梯度不稳定，网络退化的问题存在，出现网络加深，性能反而下降的情况。

通过以上模型的性能比较可说明网络结构并非越深越好。模型加深可能出现某些浅层的学习能力下降，限制深层网络学习的情况，故应针对不同的场景选取合适的网络。

本文开发了一种有效的深度学习方法用于CT图像肺部结节的鉴别诊断。3D CNN-3卷积神经网络模型在CT图像肺部结节的良恶性鉴别诊断和恶性程度预测能力方面具有良好的性能，从而辅助影像科医师提高阅片效率，帮助准确诊断。

782

中国医学影像学杂志 2019年第27卷第10期影像技术学•论著

[5] 许彬东, 黄国忠, 陈豪. 食管及食管胃交界部癌术后胃瘫

综合征. 中国综合临床, 2015, 11(31): 1009-1011. [6] Camilleri M, Szarka LA. POEMs for gastroparesis.

Gastrointest Endosc, 2016, 85(1): 129-131.

[7] 郑敏, 许祥丽. 利用三维超声及等回声型造影剂测定胃

排空时间. 医学影像学杂志, 2010, 20(3): 386-388. [8] Revicki DA, Rentz AM, Dubois D, et al. Gastroparesis

cardinal symptom index (GCSI): development and validation of a patient reported assessment of severity of gastroparesis symptoms. Qual Life Res, 2004, 13(4): 833-844.

[9] Revicki DA, Camilleri M, Kuo B, et al. Development and

content validity of a gastroparesis cardinal symptom index daily diary. Aliment Pharmacol Ther, 2009, 30(6): 670-680.

[10] Nelson DB, Maurer H, Parkman HP. Symptoms of

gastroparesis: use of the gastroparesis cardinal symptom index in symptomatic patients referred for gastric emptying scintigraphy. Digestion, 2008, 78(2-3): 144-151.

[11] Revicki D, Rentz AM, Dubois D, et al. Development and

validation of a patient-assessed gastroparesis symptom severity measure: the gastroparesis cardinal symptom index. Aliment Pharmacol Ther, 2003, 18(1): 1365-2036.

[12] Mekaroonkamol P, Patel V, Shah R, et al. Association

between duration or etiology of gastroparesis and clinical response after gastric per-oral endoscopic pyloromyotomy. Gastrointest Endosc, 2019, 89(5): 969-976.

[13] Dacha S, Mekaroonkamol P, Li L, et al. Outcomes and

（上接第782页）

[14] 唐磊. 进展期胃癌的影像学评估:从图像到大数据影像组

学. 中华胃肠外科杂志, 2018, 21(10): 1106-1112. [15] 潘德润, 秦耿耿, 陈卫国. 基于深度学习的人工智能技术

在乳腺癌筛查及影像诊断中的应用进展. 国际医学放射学杂志, 2019, 42(1): 15-18.

[16] Armato IS, Mclennan G, Bidaut LA, et al. The lung image

database consortium, (LIDC) and image database resource initiative (IDRI): a completed reference database of lungnodules on CT scans. Med Phys, 2011, 38(2): 915-931.

quality-of-life assessment after gastric per-oral endoscopic pyloromyotomy (with video). Gastrointest Endosc, 2017, 86(2): 282-289.

[14] Camilleri M, Szarka LA. POEMs for gastroparesis.

Gastrointest Endosc, 2017, 85(1): 129-131.

[15] 董岚, 蔡爱露. 三维超声诊断胎儿胼胝体缺如. 中国医学

影像学杂志, 2018, 26(2): 130-132.

[16] 胡祎, 罗瑜, 黄丽琼, 等. 三维超声XI-VOCAL技术在胎

儿胆囊容积估测的应用. 中国超声医学杂志, 2019, 35(3): 260-262.

[17] 孟文玉, 冯菲, 王惠, 等. 糖尿病胃轻瘫检测方法的研究

进展. 中华糖尿病杂志, 2017, 9(8): 529-530.

[18] Steingoetter A, Fox M, Treier R, et al. Effects of the posture

on the physiology of gastric emptying: a magnetic resonance imaging study. Scand J Gastroenterol, 2006, 41(10): 1155-1164.

[19] Gonzalez JM, Benezech A, Vitton V, et al. G-POEM

with antro-pyloromyotomy for the treatment of refractory gastroparesis: mid-term follow-up and factors predicting outcome. Aliment Pharmacol Ther, 2017, 46(3): 364-370.

[20] Bapaye A, Dubale N, Pujari R, et al. Peroral endoscopic

pyloromyotomy for delayed postoperative gastroparesis. Endoscopy, 2015, 47(1): E581-E582.

【收稿日期】2019-06-21 【修回日期】2019-09-17

（本文编辑闻浩）

[17] Greenspan H, Van Ginneken B, Summers RM. Guest

editorial deep learning in medical imaging: overview and future promise of an exciting new technique. IEEE Trans Med Imaging, 2016, 35(5): 1153-1159.

[18] Causey JL, Zhang J, Ma S, et al. Highly accurate model for

prediction of lung nodule malignancy with CT scans. Sci Rep, 2018, 8(1): 9286.

【收稿日期】2019-04-09 【修回日期】2019-07-25

（本文编辑闻浩）

787

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于三维卷积神经网络深度学习的肺结节良恶性的鉴别诊断