-
DarwinML自动建模平台,面向医疗研究者的自动建模平台
2020/5/22 18:31:10 来源:法治中国 【字体:大 中 小】【收藏本页】【打印】【关闭】
核心提示:为了帮助研究者专注于领域内积累,考虑到医疗研究者同时面临临床医疗和病理研究等多方压力,在使用DarwinML过程中,我们全程支持点击拖拽,中间结果可视可下载,研究者只需重点关注原始数据输入和评估结果输出。为了帮助研究者专注于领域内积累,考虑到医疗研究者同时面临临床医疗和病理研究等多方压力,在使用DarwinML过程中,我们全程支持点击拖拽,中间结果可视可下载,研究者只需重点关注原始数据输入和评估结果输出。本文将以重症监护医学领域的应用为例,讲述如何使用DarwinML来辅助医疗研究者。功能包括以页面拖拽方式自动抽取数据特征,并根据实际研究需要,调整入模特征、数据清洗方案、模型拟合方向等,使用平台可反复生成并比较模型,最终完成研究目标。
DarwinML Studio自动建模平台
从数据导入和清洗为起点,DarwinML可自动建模并给出模型多方位评估结果,研究者只需要重点关注模型评估结果。研究者根据研究目标,自行返回去调整最初的数据清洗方案和模型设置,多次建模,选择符合研究需要的最终模型。
DarwinML自动建模平台全流程如下:
center2755901)数据清洗:均衡样本分布,填补缺失值,消除特征异常值,文本特征数值化等。
2)模型设计:根据数据自身特性,以及研究者的参数设定,自动构建搜索空间内的最优网络结构。网络结构会在平台中显示如下。
3)
超参调优:对最优网络结构,结合数据特性,给出相匹配的最优超参组合,比如下图所示的“超参数”列中XGBClassifiler的learningRate和nEstimators等。
4)模型训练:使用最优网络及超参组合,实际训练模型。
5)模型评估:给出查全率,查准率,AUC等基础指标值,并且从模型角度,给出重要列分析结果,从样本角度,给出单个样本的重要特征分析。
同时可以根据需要,我们也支持只使用部分功能。比如可以导入一组新患者的检查数据,使用上次训练好的模型,只做模型评估,来对这一组新患者的患病几率做预判。
案例:重症感染综合征(又名败血症,Sepsis)预后研究
根据其较早期的检查指标,我们使用DarwinML为重症监护室(ICU)患者预警感染重症感染综合征(又名败血症,Sepsis)的可能性,以及是哪些指标以何种方式导向这一结果。从而让医疗研究者可以尽早地根据患者的各项检查指标来判断Sepsis病症的预后。医疗研究者通过模型预警提前介入,用药治疗挽救生命。
步骤一:数据抽取
根据研究需要,我们的特征抽取目标是,从620万条检查记录中,涉及约20,000名患者的70项检查,抽取出进入ICU之后符合一定条件的记录,生成特征值用于模型。
DarwinML数据抽取平台在这一过程中,可以帮助研究者完成三件事情:
1. 数值化指标值:由于医疗设备各有差异,同一项指标的结果记录不一致。比如:白蛋白(Albumin)指标,在部分检查结果中记录为数值0.5, 1.9, 2.9等,但有些检查结果使用分段记录“LESS THAN 0.3”,“LESS THAN 1.0”等,需要统一化处理为数值,用于模型训练;
2. 截取数据:研究者可以通过色设置参数,来对关注的部分进行数据截取。比如在本次案例中,研究者希望探究是否有可能在患者进入ICU72小时内给出感染Sepsis的预判,则研究者设定如下参数值来实现。
3. 生成模型特征:由于患者的各项检查时间不连续,检查间隔不稳定,导致70项指标的缺失值平均高达86.88%,具有高稀疏性特点。平台可以对620万条检查记录进行特征生成,转换为被模型直接使用的20,000条患者记录,也就是每位患者一条特征数据。
上述步骤将在DarwinML Data Fusion,以数据流形式在1小时内处理结束。数据流的运行进展可以通过页面日志实时查看,也可以在数据流实时显示。
步骤二:数据清洗
DarwinML自动建模平台会在数据导入后给出当前数据每一列的具体清洗建议。比如:是否需要填充缺失值,填充值取多少合适;这一列的数据是否有严重偏移,是否需要消除异常值;这一列是否是字符串列,模型无法直接使用,如何做数值化处理,是映射为0,1,2...,还是做ICA编码提取语义等。当然,研究者可以选择信任推荐的清洗方案,也可以自定义清洗方案。
下图给出了darwinML对不平衡数据分布自动做均衡化之后的结果,原本7:1的严重偏移分布(左图), 转换为可以更好被模型拟合的2:1分布比例(右图)。
“Hours0-72_Alkaline phosphate_min”数据由于含有异常值,数据分布呈现严重正偏态,如下左图,DarwinML自动推荐等距分箱,清洗后,如下右图,消除了偏态分布。
在数据清洗完成后,DarwinML会给出最终的数据宽表(如下图)供反查。如果有不符合预期的处理,可以选择“再次清洗”实现。
步骤三:模型设计、超参调优、模型训练
DarwinML自动完成。
步骤四:模型评估
在DarwinML完成自动建模后,研究者可以查看模型评估结果来进行分析。比如:当我们完成了一个模型,看到ROC曲线如下,AUC约等于0.9249,模型整体准确率较高。
但当我们进一步查看模型重要列分析,发现模型给出重要性较高的指标是Diastolic blood pressure(舒张压)等体征指标,而研究者更为关注的是各项病理检查指标。
为了排除影响,我们选择再次清洗数据,把体征指标从数据中剔除掉,再次自动建模。
剔除体征指标后,得到一个新的模型,AUC约等于0.9094,略有降低,但模型的实际功能更符合研究需要。
接下来,我们可以查看评分卡结果,并对来患病几率选择一个门限,比如0.3,这时查准率大约为0.94。在实际使用中,当模型给出的患病几率超过门限0.3,我们就可以初步判断这位患者易感,需要重点关注。
结语
本文主要以重症感染综合征(又名败血症,Sepsis)的一次预后研究为例,对DarwinML自动建模平台展开介绍。DarwinML同时支持时间序列、图像分类、图像目标识别、OCR等任务,兼容研究者自定义的模型应用。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,邮箱:cidr@chinaidr.com。 -
- 直达16个行业