DarwinML自动建模平台，面向医疗研究者的自动建模平台

核心提示：为了帮助研究者专注于领域内积累，考虑到医疗研究者同时面临临床医疗和病理研究等多方压力，在使用DarwinML过程中，我们全程支持点击拖拽，中间结果可视可下载，研究者只需重点关注原始数据输入和评估结果输出。

为了帮助研究者专注于领域内积累，考虑到医疗研究者同时面临临床医疗和病理研究等多方压力，在使用DarwinML过程中，我们全程支持点击拖拽，中间结果可视可下载，研究者只需重点关注原始数据输入和评估结果输出。

本文将以重症监护医学领域的应用为例，讲述如何使用DarwinML来辅助医疗研究者。功能包括以页面拖拽方式自动抽取数据特征，并根据实际研究需要，调整入模特征、数据清洗方案、模型拟合方向等，使用平台可反复生成并比较模型，最终完成研究目标。

DarwinML Studio自动建模平台

从数据导入和清洗为起点，DarwinML可自动建模并给出模型多方位评估结果，研究者只需要重点关注模型评估结果。研究者根据研究目标，自行返回去调整最初的数据清洗方案和模型设置，多次建模，选择符合研究需要的最终模型。

DarwinML自动建模平台全流程如下：

center2755901)数据清洗：均衡样本分布，填补缺失值，消除特征异常值，文本特征数值化等。

2)模型设计：根据数据自身特性，以及研究者的参数设定，自动构建搜索空间内的最优网络结构。网络结构会在平台中显示如下。

超参调优：对最优网络结构，结合数据特性，给出相匹配的最优超参组合，比如下图所示的“超参数”列中XGBClassifiler的learningRate和nEstimators等。

4)模型训练：使用最优网络及超参组合，实际训练模型。

5)模型评估：给出查全率，查准率，AUC等基础指标值，并且从模型角度，给出重要列分析结果，从样本角度，给出单个样本的重要特征分析。

同时可以根据需要，我们也支持只使用部分功能。比如可以导入一组新患者的检查数据，使用上次训练好的模型，只做模型评估，来对这一组新患者的患病几率做预判。

案例：重症感染综合征(又名败血症，Sepsis)预后研究

根据其较早期的检查指标，我们使用DarwinML为重症监护室(ICU)患者预警感染重症感染综合征(又名败血症，Sepsis)的可能性，以及是哪些指标以何种方式导向这一结果。从而让医疗研究者可以尽早地根据患者的各项检查指标来判断Sepsis病症的预后。医疗研究者通过模型预警提前介入，用药治疗挽救生命。

步骤一：数据抽取

根据研究需要，我们的特征抽取目标是，从620万条检查记录中，涉及约20,000名患者的70项检查，抽取出进入ICU之后符合一定条件的记录，生成特征值用于模型。

DarwinML数据抽取平台在这一过程中，可以帮助研究者完成三件事情：

1. 数值化指标值：由于医疗设备各有差异，同一项指标的结果记录不一致。比如：白蛋白(Albumin)指标，在部分检查结果中记录为数值0.5, 1.9, 2.9等，但有些检查结果使用分段记录“LESS THAN 0.3”，“LESS THAN 1.0”等，需要统一化处理为数值，用于模型训练;

2. 截取数据：研究者可以通过色设置参数，来对关注的部分进行数据截取。比如在本次案例中，研究者希望探究是否有可能在患者进入ICU72小时内给出感染Sepsis的预判，则研究者设定如下参数值来实现。

3. 生成模型特征：由于患者的各项检查时间不连续，检查间隔不稳定，导致70项指标的缺失值平均高达86.88%，具有高稀疏性特点。平台可以对620万条检查记录进行特征生成，转换为被模型直接使用的20,000条患者记录，也就是每位患者一条特征数据。

上述步骤将在DarwinML Data Fusion，以数据流形式在1小时内处理结束。数据流的运行进展可以通过页面日志实时查看，也可以在数据流实时显示。

步骤二：数据清洗

DarwinML自动建模平台会在数据导入后给出当前数据每一列的具体清洗建议。比如：是否需要填充缺失值，填充值取多少合适;这一列的数据是否有严重偏移，是否需要消除异常值;这一列是否是字符串列，模型无法直接使用，如何做数值化处理，是映射为0，1，2...，还是做ICA编码提取语义等。当然，研究者可以选择信任推荐的清洗方案，也可以自定义清洗方案。