实战篇——达观杯比赛，信息抽取

“达观杯”文本智能信息抽取挑战赛 https://www.biendata.com/competition/datagrand/

大赛简介

大赛的任务是给定一定数量的标注语料以及海量的未标注语料，在3个字段上做信息抽取任务。
大赛提供的是一个全新的数据集，旨在促进不同领域下文档多字段的抽取任务研究。此外还提供了一个大规模的未标注预料供预训练语言模型。

其中数据都是经过了脱敏处理的，且所有文本数据都经过清洗，以自然句为单位分句，每一行为一个自然句，之后为其每一个字和标点符号映射一个唯一的索引，即每一个字和标点符号都由一个独立的整数来表示。便于处理，用下划线连接。比如：“欢迎来到达观数据。”被转化为形如“1_2_3_4_5_6_7_8_9”的字符串。训练集，预测集和大规模未标注语料均由同一份索引表生成训练集有17000条，在17000条数据上标注了3个字段，共有字段a 9281处，字段b 14704处，字段c 9097处。预测集有3000条。

数据格式

训练集每一行对应一条文本数据。每一个数字对应一个“字”或“标点符号”。字和字之间用‘_’连接，在对应字段后面标注/a、/b、/c，非字段文本标注/o。比如：“欢迎来到达观数据。”是形如“1_2_3_4_5_6_7_8_9”的字符串，如果“达观数据”是字段c，就会被标成“1_2_3_4/o 5_6_7_8/c 9/o”的形式。

正式开始吧！

首先，不得不说官方提供的baseline，分数是出奇的高呀。代码可见云盘https://pan.baidu.com/s/1egGezPG48dzqfJjsxQXbVg 提取码：cy1q

其使用的是CRF++工具，简单粗暴有木有。