ERNIE Slim 数据蒸馏

在ERNIE强大的语义理解能力背后，是需要同样强大的算力才能支撑起如此大规模模型的训练和预测。很多工业应用场景对性能要求较高，若不能有效压缩则无法实际应用。

因此，如上图所示，我们基于数据蒸馏技术构建了ERNIE Slim数据蒸馏系统。它的原理是通过数据作为桥梁，将ERNIE模型的知识迁移至小模型，以达到损失很小的效果却能达到上千倍的预测速度提升的效果。

Step 1. 使用ERNIE模型对输入标注数据对进行fine-tune，得到Teacher Model
Step 2. 使用ERNIE Service对以下无监督数据进行预测：
1. 用户提供的大规模无标注数据，需与标注数据同源
2. 对标注数据进行数据增强，具体增强策略见下节
3. 对无标注数据和数据增强数据进行一定比例混合
Step 3. 使用步骤2的数据训练出Student Model

目前采用三种数据增强策略策略，对于不用的任务可以特定的比例混合。三种数据增强策略包括：

使用教程

我们采用上述3种增强策略制作了chnsenticorp的增强数据：增强后的数据为原训练数据的10倍(96000行)，可以从这里下载。即可执行下面的脚本开始蒸馏。

python ./distill/distill.py

我们将实际应用场景分类为两种：

模型	评论低质识别【分类 \| ACC】	中文情感【分类 \| ACC】	问题识别【分类 \| ACC】	搜索问答匹配【匹配 \| 正逆序】
ERNIE-Finetune	90.6%	96.2%	97.5%	4.25
非ERNIE基线（BOW）	80.8%	94.7%	93.0%	1.83
+ 数据蒸馏	87.2%	95.8%	96.3%	3.30