织梦CMS - 轻松建站从此开始!

365bet官网 365bet娱乐场 365bet娱乐注册【信誉】

当前位置: 主页 > 365bet娱乐场 >

谷歌传奇人物 Jeff Dean 联手顶级医学院,发表首篇

时间:2018-02-04 03:07来源:网络整理 作者:采集侠 点击:
原标题:谷歌传奇人物 Jeff Dean 联手顶级医学院,发表首篇电子病历 AI 论文 雷锋网消息,

原标题:谷歌传奇人物 Jeff Dean 联手顶级医学院,发表首篇电子病历 AI 论文

雷锋网消息,谷歌在ArXiv上公开了一篇论文,也很可能是谷歌使用深度学习模型在电子病历建模分析方面的首篇文章。这篇论文由“编译器从不警告Jeff,Jeff会警告编译器”的谷歌大脑高级研究员Jeff Dean率队,联合了UCSF、Stanford、UChicago等知名机构的众多大牛。

谷歌传奇人物 Jeff Dean 联手顶级医学院,发表首篇

在这篇文章里,Google选择了UCSF、Stanford、UChicago作为合作单位,在两个大的医院系统——CSF和UChicago的电子病历数据上,用深度学习模型预测四件事情:住院期间的死亡风险、规划之外的再住院风险、长时间的住院天数以及出院的疾病诊断。

据雷锋网了解,本篇论文的作者团队背景豪华。Quoc Le等人是深度学习界耳熟能详的人物。此外,Nigam Shah是Stanford生物医学信息中心的终身教授,一直大力推动机器学习、数据挖掘技术在医学信息学中的应用。而Atul Butte则是医学信息学界最有影响力的学者之一,本人是UCSF计算健康科学中心(Institute for Computational Health Science)的首任director,美国医学院院士。

他们总结了这篇论文得到的两个成果。首先,提出了一个通用的数据处理途径,可以将原始的EHR数据作为输入,并且在没有手动特征协调的情况下生成FHIR标准输出。这一成果使得系统可以相对容易地部署到新医院。

其次,基于两家具有普通患者群体(不局限于ICU)的医院数据,展示了在各种预测问题和设置中使用深度学习模型的有效性。

雷锋网了解到,作者从2012-2016年的加州大学旧金山分校(UCSF)以及2009-2016年的芝加哥大学医学(UCM)中获取了EHR数据。他们把每个卫生系统称为A医院和B医院。所有电子健康记录都进行了脱敏。这两个数据集都包含患者人口统计数据、诊断记录、药物治疗、生命体征等数据。UCM数据集(但不是UCSF)还包含了不确定的、免费的医学注释。

此外,作者还采用了FHIR标准,开发了一个单独的数据结构,而不需要手动创建的数据集。

采用的三种预测模型

尽管考虑到数据的巨大潜力,但是提高预测模型的可扩展性是困难的,因为对于传统的预测建模技术来说,要预测的每一个结果都需要创建具有特定变量的自定义数据集。人们普遍认为,分析模型中80%的工作是预处理、合并、自定义和清理数据集,而不是对此进行分析,这极大地限制了预测模型的可扩展性。

我们主要采用了三种模型:LSTM、前馈神经网络和决策树。在输入模型之前,所有电子病历中的事件全都被嵌入到一个统一的低维空间中。

我们使用了两个美国学术医疗中心的EHR数据来验证我们的方法,其中包括住院至少24小时的216221名病例。深度学习模型对住院期间死亡风险(AUROC)、规划之外的再住院风险(AUROC 0.75-0.76)、长时间的住院天数(AUROC 0.85-0.86)和出院的疾病诊断(频率加权AUROC 0.90)都具有较高的准确性。这些模型在所有情况下都优于最先进的传统预测模型。

事实上,常规收集的病人医疗数据还没有用于临床医生改善护理服务的预测统计模型。另一个挑战是,电子健康记录(EHR)中潜在的预测变量的数量可能会很容易地达到数千个之多。传统的建模方法仅仅通过选择非常有限的常用变量,由此产生的模型可能会产生不精确的预测:假阳性的预测可能会加重医生、护士的负担。

深度学习和人工神经网络的发展可以使我们应对这些挑战。一个关键的优点是,调查人员通常不需要指定考虑哪些潜在的预测变量,以及如何进行组合;相反,神经网络可以学习来自数据本身的关键因素和交互表示。具体来说,这种深度学习方法可以将电子健康记录(包括自由文本注释)纳入到对一系列临床问题和结果的预测中,这些问题和结果比传统的预测模型要好得多。

用FHIR标准对电子病历进行映射

使用计算机系统从“高度组织和记录的数据库”中学习临床数据具有悠久的历史。尽管目前EHRs的数据已经数字化,但最近对医学文献的系统回顾发现,用EHR数据构建的预测模型使用的变量的中位数为27,依赖于传统的广义线性模型,并且是在单个中心使用数据构建的。在临床实践中,最常用的是更简单的模型,比如CURB-65,这是一个5因素模型,或者是单参数的警告分数。

对每个患者使用更多可用数据的一个主要挑战是,来自多个站点的卫生数据缺乏标准和语义互操作性。通常为每个新的预测任务选择一组独特的变量,通常需要耗费大量劳动来提取和规范来自不同站点的数据。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
推荐内容