近日,由广州医科大学附属第一医院国家呼吸医学中心主任、国家呼吸系统疾病临床医学研究中心副主任何建行教授团队牵头,联合基准医疗及全国24家中心共同合作开发,运用外周血cfDNA甲基化标志物、临床信息和影像学特征构建了肺结节良恶性分类模型,用于肺癌的早期诊断。该研究成果“Accurate classification of pulmonary nodules by a combined model of clinical, imaging, and cell-free DNA methylation biomarkers: a model development and external validation study”已在国际顶级学术期刊The Lancet Digital Health(影响因子30.8)上正式发表,这是该团队继2021年在Journal of Clinical Investigation发表自主研发的全球首个基于cfDNA甲基化高通量测序液体活检技术的肺结节诊断模型PulmoSeek的建模与验证数据之后,再一次对该模型进行多模态升级。研究的主要共同完成人为何建行、曾庆思、范建兵及梁文华。
一、研究背景
肺癌的早期诊断仍然是一个世界难题。临床亟需一种稳定、灵敏、无创的能“精准判定”肺结节良恶性的工具。研究团队前期已建立了一种基于血液的cfDNA甲基化模型(PulmoSeek,包含100个甲基化位点)用于肺结节的良恶性诊断(Theranostics 2019; 9(7):2056-2070. J Clin Invest. 2021; 131(10): e145973. )。这一工具已得到全国多中心临床研究的验证。理论上,影像特征对ctDNA非脱落病灶有更好的敏感性,而cfDNA生物标志物则更为特异,两者有一定互补性。因此,团队在本研究中整合了cfDNA甲基化、临床特征和CT影像特征,运用机器学习算法开发了一个组合模型PulmoSeek Plus,该模型的综合诊断性能优于单独的甲基化模型PulmoSeek和影像学模型CIBM。
二、研究设计
1. 临床队列
本项前瞻性采样、回顾性盲法评估(PRoBE)临床研究在国内24家医院累计纳入1380例施行肺结节切除术并获得病理确诊的5-30mm肺结节患者,同时采集临床信息、术前外周静脉血和胸部CT DICOM数据。在模型训练阶段(训练集Training set)、验证阶段(内部验证集Validation set 1)和独立盲法验证(外部验证集Validation set 2)三个阶段,共计入组1076例肺癌和304例非肺癌入组者的血液样本。外部验证集来自于“钟声计划”部分受试者数据。
图1. 研究设计
2.多种肺结节分类模型的建立及性能比较
为了论证cfDNA甲基化与LDCT影像学特征结合能发挥互补作用,本研究建立了三种模型:基于临床和影像学特征的肺结节良恶性分类模型CIBM(clinical and imaging biomarkers),基于影像学特征的肺腺癌浸润分类模型IBMI(imaging biomarkers model for invasiveness differentiation)和联合cfDNA甲基化标志物、临床和影像学特征的肺结节良恶性分类模型PulmoSeek Plus。
PulmoSeek Plus模型:基于CIBM(影像学特征+临床特征)和PulmoSeek(cfDNA甲基化)的评分,应用逻辑回归算法,在258例训练集中建立联合模型PulmoSeek Plus,并在283例外部独立验证集评估其综合诊断性能。
图2. 模型构建(CIBM、IBMI和PulmoSeek Plus)
三、研究结果
1.基于影像学标志物的肺结节分类模型--CIBM和IBMI模型
针对肺结节良恶性鉴别和早期肺腺癌浸润分类(区分原位腺癌/微浸润腺癌和浸润腺癌)这两个关注点,本研究以CT影像学特征为基础分别构建了CIBM模型和IBMI模型。CIBM模型由1个临床特征和9个影像学特征构成,其在两个验证集的AUC均达到0.85。另IBMI模型(IBMI模型由12个影像学特征构成)也展示了一定的肺腺癌浸润分类检测性能(AUC达0.89,敏感性0.80,特异性0.81)。提示影像学特征有助于肺结节类型鉴别诊断。
2.PulmoSeek Plus模型的开发及综合诊断性能
为了证实cfDNA甲基化和CT影像特征有1+1>2的效果,本研究开发了新的肺结节良恶性分类模型PulmoSeek Plus:PulmoSeek模型+CIBM模型→PulmoSeek Plus模型。在合并的541例训练集和验证集,相较于单独的PulmoSeek模型和CIBM模型,PulmoSeek Plus联合模型的综合诊断得到显著提升,AUC提升5%,准确率提升约5%,敏感性提升约5-6%。
图3. PulmoSeek Plus模型在训练集、验证集和合并集中的ROC曲线
该模型对各期肺癌的敏感性≥95%,整体敏感性为0.98(0.97-0.99;n=423),对早期肺癌(0/I期)敏感性为0.98(0.96-0.99;n=390);对不同大小恶性结节的敏感性≥98%,整体敏感性为0.98(0.97-0.99;n=423),对不确定结节(5-10mm)敏感性为0.99(0.96-1.00;n=123)。
图4. PulmoSeek Plus模型在早期肺癌和小结节中的检测灵敏度
值得注意的是,当发病率为10%时,该模型校正后的阴性预测值(NPV)高达1.0。提示PulmoSeek Plus模型在临床“排阴(rule-out)”用途时,有望更好地避免良性肺结节的过度诊疗及医疗支出。
表1. CIBM、PulmoSeek和PulmoSeek Plus模型性能
3.PulmoSeek Plus模型“三分法”定义肺结节风险,协助5-10mm IPN分流管理
为了兼顾“排阴(rule-out)”和“确阳(rule-in)”的临床需求,本研究同时应用PulmoSeek Plus的两个cut-off(高灵敏度/低特异性 vs. 高特异性/低灵敏度)将不确定结节(IPN, 5-10mm)重新分类成低风险、中风险和高风险。若PulmoSeek Plus 模型判为低风险结果,则建议参与者不需进行侵入性诊断,而是进行常规的年度 LDCT 监测。相反,若PulmoSeek Plus判为高风险结果,则建议参与者直接进行手术或活检。若PulmoSeek Plus判为中风险,则建议参与者接受密切的 LDCT 监测随访。
结果表明,在541例合并数据集里,利用PulmoSeek Plus模型“三分法”重分类可减少89%的良性结节不必要的侵入性检查/手术、避免73%的恶性结节被延误治疗;只有1%的恶性结节被错判为低风险、11%的良性结节被错判为高风险。
由于不确定结节在临床实践中非常难判定良恶,本研究将5-10mm的小结节定义为不确定结节,利用PulmoSeek Plus模型“三分法”重分类可减少85%的良性结节不必要的侵入性检查/手术、避免72%的恶性结节被延误治疗;只有1%的恶性结节被错判为低风险、15%的良性结节被错判为高风险。
结果表明,PulmoSeek Plus模型在不同的临床场景有较优异的诊断性能,即使对不确定结节(IPN, 5-10mm)也保持优异的综合性能。
图5. PulmoSeek Plus模型“三分法”定义肺结节风险
四、总结
本研究通过机器学习创新地整合了cfDNA 甲基化生物标志物、临床和影像特征,建立了多模态联合诊断模型 PulmoSeek Plus,可显著提高早期恶性肺结节的检出率,避免良性肺结节的过度诊疗,有利于辅助临床诊疗决策,助力于肺癌的早发现、早治疗。
与此同时,The Lancet Digital health同期发表了评论“Classification of pulmonary nodules in the era of precision medicine”,对本研究给予了积极评价,认为:“这项研究为在精准医学时代识别肺结节的良恶性提供了一个有价值的工具,也为该领域的未来研究提供了新的见解。将多组学数据与机器学习算法相结合是未来提高诊断效率的一种有前途且有效的方法。”
参考文献:
He J, Wang B, Tao J, et al. Accurate classification of pulmonary nodules by a combined model of clinical, imaging, and cell-free DNA methylation biomarkers: a model development and external validation study. Lancet Digit Health 2023; published online Aug 9. https://doi.org/10.1016/S2589-7500(23)00125-5
原文链接:https://www.sciencedirect.com/science/article/pii/S2589750023001255
评论链接:https://www.sciencedirect.com/science/article/pii/S2589750023001541