主动学习

快速了解主动学习
https://zhuanlan.zhihu.com/p/39367595

主要思想


基本算法描述:

1、初始化(可有可无)

从无标注的数据集中随机抽样 并人工分类

2、在标记过的数据集熵训练分类器,得到预测值

3、挑出信息量大的(接近于0.5)的样本进行标注 人工进行分类标注

重复2-3 直到:
1)没有更多的资源对数据集进行标注
2)当前分类器对选出来的数据分类达到要求
3)人工也无法分类

1、选择最有信息的样本
2、选择最具代表性的样本,涵盖整体分布的信息

虽然bert模型在很多任务上都取得了一定的成功,但是当解决新的任务的时候,可能会需要到丰富的经验去设计网络结构,调参数,或者很多训练数据去训练它。我们希望用一些已经预训练好的模型,在这个模型上用很少的训练数据,把它从预训练的任务上迁移过来,在新的任务上也取得很好的效果