目录
总结
1.基于机器学习的儿科器官移植受者健康结果预测
论文主题
Machine learning–based prediction of health outcomes in pediatric organ transplantation recipients
论文doi
https://doi.org/10.1093/jamiaopen/ooab008
https://academic.oup.com/jamiaopen/article/4/1/ooab008/6168494
发表时间:2021.5
作者背景:信息(通讯 医学)
被引量:0
期刊:(JAMIA Open)
勘误
https://doi.org/10.1093/jamiaopen/ooab034
修正DL得到的ROC 0.85->0.59
目标
预测移植术后1、3和5年的住院情况
输入
移植前诊断和功能状态, 心理社会变量
输出
分类任务: 0不住院/1住院
方法
Logistic回归、朴素贝叶斯、支持向量机和深度学习(DL)方法
使用Shapley加性解释(Shap)来增加DL模型结果的可解释性。
确定各种器官类型的显著预测因子(salient predictors across organ types), 其中包括各种医学、患者和社会特征(Various medical, patient, and social variables)
数据
样本来自大型儿科器官移植中心的儿童肾、肝和心脏移植受者
结果
看着都不太好的样子
主要贡献
使用各种ML技术和DL方法建模,确定不良结果的预测因素
可解释性XAI
缺失值填充和特征选择
不足可改进
数据量太小, DL过拟合
分类特征没有用单一编码
记录缺失严重
备注
对更正表示钦佩
效果很拉, 但是缺失值填充等方法可以借鉴
缺失值填充: 随机森林插补(missforest)
Python包使用说明:
https://www.cnpython.com/pypi/missing
可解释性XAI和特征选择也可以试试
摘要
目标
预测移植后健康结果
关键影响因素的识别
目前研究通常依赖于普通线性模型之类的技术提供有限的预测效果; 数据驱动的模型和机器学习 (ML) 方法在儿科移植结果研究中的应用和成功有限。
当前研究的目的: 检验(examine) ML 模型预测患者住院情况的效果
样本来自大型实体器官移植计划的儿童肾、肝和心脏移植受者
材料和方法
Logistic回归、朴素贝叶斯、支持向量机和深度学习(DL)方法
使用来自一家大型儿科器官移植中心的患者和管理数据
using patient and administrative data from a large pediatric organ transplant center.
预测移植后1、3和5年的住院情况
predict 1-, 3-, and 5-year post-transplant hospitalization
结果
DL模型相比传统的ML模型, 在各种器官类型和预测时间窗(organ types and prediction windows)上都没提升
ROC曲线下面积(area under the receiver operating characteristic curve)取值范围为0.5~0.593。使用Shapley加性解释(Shap)来增加DL模型结果的可解释性。
确定各种器官类型的显著预测因子(salient predictors across organ types), 其中包括各种医学、患者和社会特征(Various medical, patient, and social variables)
讨论&结论
DL模型预测术后风险效果很拉, 如果有大量样本说不定会好点.
背景和意义
存活率不错:
在接受器官移植手术后,儿科患者的存活率仍然很高,而且正在改善。总体而言,2009至2013年间接受肾移植的儿童患者的5年存活率为98.4%[1],儿童肝移植受者的5年存活率为83.2%[2]。在2006-2013年间接受移植手术的儿童心脏移植受者中,1年和5年患者存活率分别为90.1%和81.5%[3]。
住院率不行:
尽管有这些改善,这些儿童的住院率仍然令人担忧[4-8],特别是对于青少年患者,他们的并发症发生率更高,不坚持免疫抑制药物[4,6-12]。
识别独特的危险因素,高危患者:
迫切需要数据驱动的方法来识别独特的危险因素,高危患者,以及制定支持临床护理和提高儿科器官移植中心决策能力的策略。
过往统计方法和ML方法:
住院次数和频率的增加,患者和家庭的压力和负担的增加代表着这些儿科患者生活质量的下降[13,14]。然而,儿科移植受者住院的预测有限[15,16]。值得注意的是,先前的研究有各种各样的方法论限制、有限的样本量、样本偏向以及缺乏严格的统计方法[11]。在全国范围内,预测建模一直依赖于一般线性建模或Cox比例风险回归方法,它们提供的预测有效性有限[17-19]。数据驱动建模和机器学习(ML)分析方法提供了在儿科移植中使用无处不在和丰富的电子健康记录(EHR)和纵向数据的机会[20-22],以在现有研究的基础上取得重大进展,并增加患者数据来源的临床实用性。
ML对比ANN:
ML处理EHR数据的方法有助于将其转化为临床护理,并有可能改善多学科移植团队、患者及其家人可用的信息。这些先进的分析方法可以适应患者变量之间的许多不同关系,评估这些复杂关系的相对预测效用,并得出具有预测有效性估计值的最终预测模型[23]。ML已用于检查成人肾脏[23,24]、肝脏[25-28]和心胸(心脏和心肺)移植[29-33]的健康结果。在儿科移植人群中,ML的使用和结果更是喜忧参半。当使用分类和回归树、随机森林(RF)和人工神经网络(ANN)方法检查心脏移植受者的死亡率时,ML显示出有限的预测有效性和灵敏度[16]。人工神经网络已被用于预测小儿肝移植术后6个月受者死亡率。与以前的标准相比,当分析中包括21个预测因子时,ANN提供了卓越的预测效用[34]。类似地,RF确定了预测肝移植后3年理想移植后结果的关键因素[15]。
过去研究不足点, 本研究目标/数据:
对儿科移植候选者移植前和移植后受者的众多评估是可用的,但许多缺乏可靠性和有效性的证据[11,12]。ML方法在儿科护理中检查移植后结果方面的应用有限[15,17],但将ML和深度学习(DL)应用于大型数据库和患者记录,在多学科移植团队中为护理和决策提供信息具有巨大的潜力。因此,本研究的目的是测试和检验ML和DL模型,这些模型预测了来自大型实体器官移植计划的儿童肾、肝和心脏移植受者的住院经历。此外,目前的研究包括来自移植中心的纵向数据,以检查1年、3年和5年的结果,以预测患者在移植后期间的住院时间。包括移植后和医疗结果数据的多个时间窗代表了儿科移植后结果的研究和ML建模方面的一个重要进展。
可解释性(医学需要):
DL模型通常被称为黑盒,这意味着它们的底层机制不容易被最终用户理解[35]。DL的一些应用领域,如医学,风险高,后果严重。这些模型缺乏透明度是它们在现实世界医疗环境中应用的障碍。因此,考虑到提高DL模型在医学上的可解释性的重要性,在这项研究中,采取了额外的步骤来解释每种器官类型的DL模型的结果
方法和材料
患者
这项研究的数据是美国西南部一家大型移植中心的儿科移植人群的器官共享联合网络(UNOS,U.S.Department of Health and Human Services)数据。UNOS数据包括用于预测长期健康和移植结果的个人、家庭和医学变量。样本包括儿童肾、心脏或肝移植受者(0-18岁)。分析中使用的数据包括1988年至2017年5月31日期间在该中心移植的患者的医疗和UNOS数据
UNOS数据
UNOS数据包括医疗数据和长期健康结果变量,目前分析的主要结果是移植后住院。联合国毒品和犯罪问题办公室维护国家和中心层面的器官移植患者数据,从被列为移植候选者开始。每个移植中心都需要维护所有移植患者移植前和移植后的医疗和健康数据。这些表格包括与移植前疾病严重程度、移植程序、术后数据、移植后并发症和健康结果相关的变量。每个患者的UNOS表格在移植过程和后续护理的三个阶段完成:
(1)器官移植候选登记(Tcr),
(2)移植程序时的受者登记(Trr),
(3)每年完成的移植后受者随访(Trf)
(https://www.transplantpro.org/technology/datacollection-forms/打不开).。
数据预处理
对于这项研究中的三种器官类型中的每一种,我们考虑了1年、3年和5年的三个不同的结果预测时间窗(图1),类似于其他预测儿科器官移植结果的研究[16,36]。二元预测结果是移植后在预测窗口内住院。
不同时间窗的预测变量不同:
在这项研究中,1年结局预测的观察窗口除了TCR和TRR表格中包含的变量外,还包括每个患者的初始随访信息(距离预测窗口最远)。预测3年结果的观察窗口是每个患者在移植后2年内的最新TFR信息。5-1的观察窗年预后预测是每个患者在移植后4年内的最新TRF随访信息。换句话说,1年、3年和5年窗口的预测任务是在观察窗口后的一年内住院
图1数据预处理流程
器官等待序列和一致数据集
->移除先前已经移植过的, 移植时候大于18岁的
->合并数据集
->初始数据预测1年时情况; 2年数据预测3年时情况, 4年数据预测5年时情况
->医学专家特征选择
->缺失值超过50%去除
->MissForest填补缺失值
->正则化
->ML建模
在每个数据集中,我们排除了18岁以上的患者和有过移植手术经历的患者。结果变量(住院)中有未知值的样本也被排除在外。医学专家(D.G.)。
从每种器官类型的所有可用变量集中确定临床相关变量,以包括在最终预测模型中。
排除缺失值>50%的变量。
最后,为了保证预测模型的有效性,作者对不同器官类型和预测窗口的某些变量进行了包含和排除的决定。例如,TCR、TRR和TRF表格中的“受者移植状态”被排除在分析之外,因为已知与住院高度相关作为预测结果。另一方面,“在1年内接受排斥治疗”被排除在分析的1年预测之外,但包括在3年和5年的预测中。
表1总结了最终预测模型中包含的每种器官类型的变量数量。表2总结了每种器官类型在每个预测窗口中的人口统计信息。每种器官类型的完整变量列表在补充材料中报告。
缺失值填充: MissForest及其算法流程
由于我们的数据集包括分类变量和数值变量的混合,因此我们使用MissForest推算方法。与使用医学数据的其他方法相比,这种估算方法被发现是有效的[37]。MissForest受益于RF算法中处理缺失值的内置例程[38,39]。
在这种推算方法中,对于每个变量,都会考虑对缺失值的初始猜测。然后,根据变量的缺失值数量从缺失值数量最少开始对变量进行排序。然后,对观测数据进行RF算法训练,然后利用训练后的RF模型预测缺失值。重复这一归罪过程,直到满足停止标准。此外,数据集在0和1之间进行了归一化处理。图1说明了本研究的数据预处理过程。对于数据管理和预处理,我们使用了SAS、R和Python。
ML/DL模型构建工具包:
预测建模使用WEKA软件[40]构建了几个ML模型,并使用Python结合SkLearning、Kera和TensorFlow库构建了DL模型[41]。
ML模型种类:
使用WEKA及其默认设置测试了四种ML算法。
在之前的一项研究中[16],研究表明RF的性能优于其他ML方法。在这项工作中,除了RF,我们还基于其他流行的ML方法,如Logistic回归、多层感知器(MLP)和支持向量机(SMO),建立了模型进行比较。
DL结构:
DL是一种生物灵感来自人脑运作方式的算法。与人脑相似,信息是通过神经元从一层到另一层的激活来处理的[42]。由于学习过程是基于损失函数进行的,因此需要优化器以一种减少损失的方式选择模型的参数。在对DL模型进行超参数调整后,它包括两个隐含层,每个隐含层有100个神经元。批次大小设置为32,50个历元。对每个隐藏层进行批量归一化。我们使用校正线性单元(RELU)[43]作为激活函数,自适应梯度算法(Adagrad)[44]作为优化算法,初始学习率设置为0.01,交叉熵为损失函数。RELU是分段线性激活函数,如果输入为负或零,则输出零,否则输出相同的输入。Adagrad在训练过程中根据模型参数的更新频率对模型参数进行优化,从而实现了训练过程中学习率的自适应。
HDLSS问题-早停(解决过拟合)-交叉验证-性能度量:
由于本研究的样本取自单一移植中心,样本大小有限。另一方面,DL模型可以很容易地拟合它们所训练的数据。在高维和低样本量的情况下,DL模型更容易受到过度拟合的影响[45]。为了减少过拟合的风险,提高DL模型的泛化能力,我们采用了提前停止的方法。此外,对于浅层和深层学习者,我们使用10倍交叉验证对其性能进行了评估。
我们将接收器工作特性曲线下的面积(AUROC)作为性能度量。我们还报告了其他性能度量,包括精确度(真阳性/[真阳性塔假阳性])、召回率(真阳性/[真阳性塔假阳性])、F-MEASURE(精确度和召回率的调和平均值)和精确度-召回率曲线下面积(AUPRC)。
利用Shapley加性解释提高DL模型的可解释性
利用Shapley加性解释(Shapley additive explanations)提高DL模型的可解释性(Interpretability)
XAI作用介绍:
基于DL算法的预测模型尽管具有卓越的预测能力,但其本身的复杂性和解释难度很大[41]。与传统的ML模型相比,他们预测背后的潜在推理更难提取[46]。因此,大量研究致力于可解释人工智能(explainable artificial intelli-gence, XAI),以探索向人类解释复杂AI模型的可能方法[47]。
Shapley附加解释(Shapley additive explanations, Shap)领域最先进的XAI统一框架[48]。
SHAP实现方法:
Shap基于复杂模型的条件期望函数的Shapley值(即,用于对合作博弈论中的游戏的“值”进行数值评估的函数)来报告该模型中的变量或特征重要性[49]。
Shapely values是解决归因问题(attribution problem即模型的预测分数在输入变量上的分布)的主要方法之一。因此,数值可以表示变量对模型预测结果的影响。由于精确的Shap值的计算具有挑战性,我们引入了Kernel Shap[48],它得益于已知的加性变量属性方法(即LIME)[50]来近似实际Shap值。我们建议感兴趣的读者参考原文以了解更多细节[48]。Shap的实现由其作者在gihub上公开提供(https://github.com/slundberg/shap)
结果
模型性能对比
表3-5报告了不同传统ML和DL模型的性能。每种模型都使用与不同器官类型的不同结果预测窗口相对应的不同数据集。由于分类任务是二元的(0或阴性结果:患者将不住院,1或阳性结果:患者将住院),因此使用精确度、召回率、F-MEASURE、AUROC和AUPRC指标来衡量性能。
预测模型
不同算法对比
以AUROC为指标时,基于RF算法和Logistic回归的模型在三种器官类型上始终是基于传统ML算法的性能最好的模型。唯一的例外是心脏数据集的1年预测窗口,MLP展示了表现最好的模型。
不同目标对比
基于肾脏数据集的ML模型表明,长期住院预测比短期住院预测更困难。预测肾移植术后1年住院时间的模型平均AUROC为0.586±0.03。3年和5年的平均AUROC分别为0.50 ± 0.037和0.54 ± 0.048。
基于肝脏数据集的模型并非如此。在这项研究中,对于肝移植后住院的预测,1年结果预测的平均表现为0.57 ± 0.031。3年和5年的平均AUROC分别为0.616 0.028和0.616 0.036。
基于心脏数据集的模型也观察到了类似的趋势:1年、3年和5年结果分别为0.631± 0.092、0.64 ± 0.033和0.678 ± 0.046。
因此,总体器官类型和结果预测窗口,平均而言,基于心脏移植长期(5年)住院预测的模型具有更好的性能。
DL
DL模型在器官类型和预测窗口上的表现并不优于传统的ML模型(图2)。DL模型在肾移植、肝移植和心脏移植三个预测窗口的平均AUROC值分别为0.5455 ± 0.018、0.5358 ± 0.016和0.5528 ± 0.047。
ML模型的性能在DL模型中也观察到了相同的趋势。
在肾脏数据集的情况下,DL模型显示了对短期住院结果更好的预测。
在肝脏和心脏数据集的情况下,从最初移植开始的较长预测窗口可以实现更准确的预测建模。
在所有器官类型和预测窗口中表现最好的DL模型是心脏移植后住院3年,AUROC值为0.593。
使用Shap解释DL模型
在本研究中,将Shap应用于DL模型的结果以变量重要性的方式显示(图3)。每行的条形图对应一个器官类型:肾脏、肝脏和心脏。每列中的条形图指的是对1年、3年和5年结果的预测。这些曲线图中的变量根据重要性进行排序(降序)。变量越重要,对与其相关的模型输出的影响程度就越大。注意,本研究中产生的Shap解释是全局的(即,通过对数据集中所有样本的Shap值大小求和来提供关于数据集中的整个样本的解释,而不是关于特定样本的解释)。此外,为了降低计算成本,我们使用k-Means算法将样本总结为50个加权样本(对于心脏1年数据集为25个)[51]。相应的形状汇总曲线图可在补充材料中找到。考虑到所有9种器官类型和预测窗口的模型,通常情况下,受者的功能状态(在列出、移植和随访时)以及主要诊断(在列出和移植时)、种族和种族是最重要的变量。
图3. 所有器官类型和预测窗口的深度学习模型的形状结果:(A)肾脏1-y预测窗口,(B)肾脏3-y预测窗口,(C)肾脏5-y预测窗口,(D)肝脏1-y预测窗口,(E)肝脏3-y预测窗口,(F)肝脏5-y预测窗口,(G)心脏1-y预测窗口,(H)心脏3-y预测窗口,和(I)心脏5-y预测窗口
讨论
数据量小DL表现不好
根据目前的分析,虽然深度学习并没有超越传统方法,但其潜在的预测作用不应被低估。这项研究中的数据集很小,混合了数字和分类变量。众所周知,深度学习是“数据饥渴”的,可能不是解决所有预测建模问题的最佳方法。在对整个UNOS数据的后续研究中,我们正在重新检查深度学习模型在存在较大样本数量的情况下与传统最大似然方法的性能。
和过往方法对比:
研究结果也代表了在使用带有儿科移植数据的ML模型方面的一个重要进展,因为先前的研究发现只有较差或较好的预测实用性和灵敏度[16]。在成人人群中的类似研究也同样报告了较低的预测效用[29-31,52-54]。在这里,DL模型的准确性超过了最近使用儿童肝移植数据研究和RF决策树方法对ML进行的检查[15]。重要的是,DL模型通过检查和评估变量之间的复杂关系,作为改善结果预测的重要途径(例如,神经元激活),提供了更高的预测性[42]。
根据获得的复杂性和预测准确性,DL模型在解释单个变量的影响方面变得越来越复杂和具有挑战性。在目前的研究中,Shap值[48]被检查以帮助DL模型的可解释性和模型中单个变量的影响。
医学变量
重要性大的医学变量及其含义:
在预测窗口和器官类型中,TCR和TRR患者的主要移植前诊断和功能状态始终是最具预测性的医学因素。
器官类型和UNOS数据收集表格的功能状态是衡量患者与健康相关的生活质量。这一变量以10%到100%的百分比记录,反应与住院状态、进行日常生活活动的能力以及疾病症状对日常活动影响的证据有关。
主要的移植前诊断包括这三种器官类型的数百种可能的诊断
肾移植重要变量:
肾移植受者的预测医学变量包括透析状态、肌酐水平、在TCR接受高血压治疗、肾脏捐赠者风险指数,以及移植后1年内排斥事件的治疗。根据移植后6个月和12个月内终末期肝病(12岁及以上患者)或儿童终末期肝病(12岁以下)评分、TCR时腹水、TCR时白蛋白水平以及排斥反应治疗的初始或最终模型来预测接受肝移植的患者的住院情况。体重指数、1A天状态(移植等待名单上最紧急的状态)、急性失代偿性心力衰竭时使用肌力调节剂,以及移植前使用包括心室辅助装置在内的其他形式的生命支持,都可以预测心脏移植患者的住院情况。这些变量中的大多数在listing和移植时表明疾病的严重程度,然而,ML的使用带来了众多变量中的一组独特的变量,这些变量显示出良好的预测能力,并有助于预测移植后并发症的风险。
不依从性MLVI:
重要的是,医生或移植团队报告的不依从性(PX_NCOMPLIANT的UNOS变量,“此随访期间受者不依从性”)是1999年末至2007年UNOS TRF表格中包含的变量。在我们的数据中,这个变量没有大于50%的值,因此缺少通过MissForest赋予的值,这与ML方法中的最佳实践一致[37-39]。尽管该数据和之前的研究[11]中有明显的预测性作用,但去除了这一变量,并将依从性纳入儿科移植后结局的其他大数据研究中[17],表明在UNOS数据中纳入依从性测量的必要性。不坚持治疗会增加住院的次数和频率,需要进行器官排斥的活组织检查,甚至会导致死亡率[4,6-10,55]。
尽管需要继续验证器官类型,药物水平可变性指数(MLVI)已显示出作为不依从性的衡量标准的前景,因为较高的MLVI评分预测了儿科心脏、肝脏和肾脏移植受者样本移植后的不良结果[4,56-60]。在UNOS TRF表格中纳入不依从性的措施,如每年患者MLVI和其他药物依从性的衡量标准,将在移植后监测、护理和识别高危患者方面实现飞跃。
心理社会变量
许多社会、家庭和患者变量被发现可以通过DL模型、跨预测窗口和器官类型来预测结果。在器官类型和预测窗口中,患者的年龄、性别、种族和民族都为DL模型提供了预测效用。在许多移植后模型中,年龄和性别都被认为是住院的预测因素。研究发现,移植时年龄较大和当前患者年龄预测移植后健康相关生活质量较低[61],更多的排斥反应(急性和慢性)[62-64],在器官类型上与年龄较小的儿童相比死亡风险更大[55,65]。在儿童肾脏[55,66,67]和心脏[68]受者的研究中,女性患者报告移植后结果较差。
学术水平(Academic progress and level)是DL模型的重要预测因子。虽然这些变量可能与功能状态高度相关,但将它们纳入模型表明,除了健康相关的生活质量指标之外,还有额外的预测作用。在目前的研究中,被确定为住院预测的社会因素包括种族、民族和社会经济地位(SES)。种族/民族和SES一直是预测移植后结果和药物依从性的研究最多的因素[11],许多研究已经确定这些社会因素与儿科肾、肝和心脏患者的医疗结果之间存在显著的相关性[13,66-68]。据报道,单亲家庭、父母教育程度低和接受公共保险等社会经济地位较低的人与移植后预后较差有关。
局限性和未来方向
样本量过少:
这项研究最重要的限制之一是样本量。在对数据进行预处理并仅包括本研究中模型中缺失率较低的特征后,每种器官类型的每个预测窗口中剩余的记录数量相当有限,特别是在心脏数据集的情况下。
DL过拟合:
与训练样本的数量相比,DL模型通常具有更多需要训练的参数。因此,在理论上,建议使用某种形式的正则化来控制泛化误差,降低复杂度[70]。然而,在更多的数据点上构建DL模型可以潜在地增强模型的可靠性和泛化能力。
分类特征没有用单一编码:
此外,在这项研究的预测模型中包含的大多数特征都是分类特征。对于预测建模的方法,我们通过为每个特征的每个类别分配数字来将这些分类变量转换为数值变量。尽管单一编码方案可能是本研究目标的更好选择,特别是在解释方面,但较小的样本量、分类变量的数量和每个变量中的类别数量不会导致更多的稀疏性。这反过来会降低模型的预测精度。
记录缺失严重:
此外,对于一些患者来说,特定预测窗口的随访数据的完整记录可能是不可用的。因此,我们假设结果在接下来的几年里不会改变。虽然目前的研究是概念的验证,并为未来的工作提供了预测建模的潜在优势,但为了解决上述限制,我们正在通过对拥有更多数据点的完整的UNOS数据进行建模来扩展这项研究。这将使我们能够在每个预测窗口中排除那些随访数据不完整的患者,并为学习过程、超参数调整和性能分析提供单独的训练、验证和测试集。
结论
数据来源:
患者和他们的家人在移植前和移植后期间经历了不同的挑战。儿科移植服务环境包含丰富的健康、医疗、患者和家庭数据,这些数据可以从传统的EHR、管理数据(例如,UNOS)、非结构化的临床数据(例如,来自临床记录的文本)收集,甚至可以从患者和家庭收集的预期数据中收集。
ML技术和DL建模方法能够对随时间演变的和不同种类的患者级别数据进行建模,确定不良结果的预测因素,并告知护理人员。
ML在儿科移植中的使用有许多应用,包括决策支持系统,甚至开发数据驱动的评估。需要一个医生和移植团队决策支持系统的基础,该系统将帮助识别风险最大的患者、最佳干预时间和可修改的移植后因素[15]。这些方法可以成为强大的工具,帮助移植团队提高和维持这些儿童及其家人与健康相关的生活质量,直接影响患者和同种异体移植的存活率。