当地时间3月16日,第68届美国心脏病学会科学年会(ACC 2019)在新奥尔良Ernest N. Morial会议中心开幕。
在本次大会中,公布了多项有关人工智能的临床研究,人工智能也成为专家们探讨的热点话题。
就医疗人工智能的相关研究,医脉通对国家心血管病中心、中国医学科学院阜外医院杨进刚副教授进行了专访。
医脉通:请您介绍一下“基于可解释机器学习的中国STEMI患者院内死亡风险预测模型”这项研究的主要内容?
杨进刚教授:这是一项关于人工智能的研究。本次ACC会议主席提到,目前没有比人工智能更火的领域了。但人工智能有“黑盒子”的诟病,输入数据,便能得出一个数据。但是对于模型是怎么算出的数据,对临床有什么指导意义,没有人能说清楚。我们阜外医院和平安医疗科技公司合作开展了这项课题的研究,首先是运用机器学习的方法做出了一个预测心肌梗死的死亡风险的预测模型,然后又做出解释,人工智能模型的结果为什么优于传统模型。
医脉通:本研究中采用的“可解释的机器学习”这种方法在建立风险评估模型中有哪些优势?
杨进刚教授:首先是预测准确度远远优于传统模型,为什么?就是因为不同变量对于患者死亡的影响不一样。传统的模型假定某一变量和死亡线性关系,比如年龄越大,死亡风险越高。但实际上,在机器学习的模型中,死亡与变量并非线性关系。比如年龄与死亡率的关系,小于60岁的患者,死亡风险与年龄的关系基本保持平缓;但一旦患者年龄超过60岁,曲线就会变为陡峭的直线。再比如,高密度脂蛋白胆固醇与死亡的关系曲线是U形曲线。这些发现实际上解释了患者死亡的复杂性,机器学习能够发现这种复杂性。
机器学习另一个优势是可以处理大量的变量。我们的模型用了近90个变量,进行预测,效果非常好。但临床上将这么多变量输入模型很难实现。为了给医生提供更为高效、简单的预测模型,在研究的过程中,我们发现,使用十几个变量,也能达到非常稳定且优于传统模型,这就是这种模型的灵活性。
医脉通:参加本次ACC年会,您认为有哪些内容特别值得关注和学习?
杨进刚教授:本次ACC会议有3个亮点,针对了3个不同的层面,能够预测心血管疾病未来发展的趋势。
首先,本次大会最值得关注的是“不开胸”治疗主动脉瓣狭窄的方法,也就是TAVR。过去,TAVR一般用于无法做心脏外科手术的高危患者。随着技术的进步,目前,中危患者也可以接受这种技术。本次大会上发表的两项研究结果证明,在低危患者中也可以应用TAVR,而且效果远远优于开胸手术。这项结果公布后,现代心脏病学之父Eugene Braunwald激动地说,“这是一个非常令人兴奋的时代,两个不同的研究,用了两种不同的瓣膜,却达到了同样的结论。”这两项研究带来的影响将是,未来单纯主动脉瓣狭窄患者可以不必接受开胸手术了。据估计,美国每年接受开胸手术的患者大约25000例,若指南依据这两项研究进行更改,未来美国每年将有约15000位患者不需要做外科手术,它将开创一个新时代,当然也为医疗系统提出了挑战。
第二个热点是数字医疗。如今,大量的智能化设备涌现,这也影响了医疗界。本次会议发布的Apple Heart研究,运用可穿戴智能设备Apple Watch检测房颤,结果发现在41万人群中,有几百位房颤患者。该研究引起了争议,有专家认为该研究开创了一个新时代,未来研究入选的患者不一定要到实体医院,他们可以在家、在学校、在单位,只要他们佩戴穿戴设备,研究者就可以获得大量数据。而更多的医生对此提出了批评性的意见,他们认为这种设备不可靠,异常的结果会给患者带来压力,导致一些不必要的就诊。但是,无论如何,它确实给临床研究方法提供了新的方向以及短时间纳入大量患者的研究方法,其对临床的影响,有待于时间去验证。
第三,心血管疾病一级预防指南也是本次会议的热点之一,对中国有着重要的意义。中国是人口大国,医疗资源相对有限,如果我们不能做好一级预防,单纯使用医疗技术来降低患者的死亡率,延长患者的寿命,是不可持续的。目前,中国已经进入老龄化社会,一级预防对于中国临床医生和患者意义重大。
一级预防指南中还有很多新概念值得我们借鉴,例如,患者就诊时,医生应常规询问几个问题,包括日常体力活动水平如何、是否吸烟等,并将这些问题记录在病历中,并根据情况建议患者增加体力活动和戒烟。指南提到,吸烟是一个不健康的生命体征,将烟与生命体征直接挂钩,强调了健康生活的重要性,这对于类似中国这样的烟草大国有着重要的现实意义。
此外,其他一些内容,比如体重管理、饮食、他汀类药物、阿司匹林等,也对中国的心血管疾病一级预防有重要的指导意义。
可解释的和有灵活性的基于机器学习的中国STEMI患者院内死亡风险预测模型:来自中国心肌梗死登记的调查结果
传统的统计模型通常低估了数据的复杂性,而机器学习的模型则让医生很难理解,且对变量的完整性要求很高。
使用来自中国的急性心肌梗死(注册)研究数据,应用XGBoost机器学习方法来开发ST段抬高心肌梗死(STEMI)患者的院内死亡风险预测模型。SHAP方法用于解释预测因子对结果的影响。
建模集(derivation set)和验证集(validation set)分别纳入9,619和9,125名STEMI患者。证明XGBOOST(AUC=0.899)模型显著优于随机森林模型(AUC=0.861)、对重要性居于前15位的变量逻辑回归(LR)模型(0.850)和GRACE评分(AUC=0.810)。当入选89个变量时,AUC为0.899(95% CI: 0.886-0.911);即使仅使用12个变量,AUC仍然达到了0.880(95% CI: 0.859-0.887)。
此外,我们发现变量和院内死亡率之间有几种新的关系。例如,血糖水平与患者的院内死亡率呈近似线性关系,但在超过9 mmol/L后保持稳定。
基总之,于机器学习的新风险预测模型具有良好的辨别能力,并能够对临床变量如何影响结局提供个性化的解释。
An Explainable Machine Learning-Based Risk Prediction Model For In-Hospital Mortality For Chinese STEMI Patients: Findings From China Myocardial Infarction Registry (1330-382)
Authors: Jingang Yang, Yingxue Li, Xiang Li, Tiange Chen, Guotong Xie, Yuejin Yang, Fuwai Hospital, National Center for Cardiovascular Diseases, Beijing, People's Republic of China, Ping’An Healthcare Technology, Beijing, People's Republic of China
Background: Traditional statistical models usually underestimate the complexity of data, while machine learning models are hard to interpret and are sensitive to the completeness of the input variables.
Methods: Using data from the China Acute Myocardial Infarction registry, we apply XGBoost machine learning method to develop risk prediction model of in-hospital mortality method among patients with ST elevation myocardial infarctin (STEMI). SHAP method was employed to explain the predictors’ impact on the outcome.
Results: We recruited 9,619 and 9,125 patients in derivation set and validation set. XGBOOST (AUC=0.899) significantly outperformed random forest (AUC=0.861), logistic regression (LR) + top 15 variables (0.850), LR with L2 regularization (AUC=0.869) and GRACE scores (AUC=0.810). The AUC was 0.899 (95% CI: 0.886-0.911) with 89 variables and still reached 0.880 (95% CI: 0.859-0.887) with only 12 variables. The figure illustrated the impact of the 20 most important features. We found several noval relationships between the clinical variables and the in-hospital deanth. For example, blood glucose level displayed an approximate linear relationship with patients’ in-hospital mortality and remain constant over 9 mmol/L.
Conclusion: The new machine learning-based risk prediction model have good discrimination ability and offered individualized explanations on how clinical variables influenced the outcomes.
来源:医脉通心内频道