“达观杯”文本智能信息抽取挑战赛 https://www.biendata.com/competition/datagrand/
大赛简介
大赛的任务是给定一定数量的标注语料以及海量的未标注语料,在3个字段上做信息抽取任务。
大赛提供的是一个全新的数据集,旨在促进不同领域下文档多字段的抽取任务研究。此外还提供了一个大规模的未标注预料供预训练语言模型。
其中数据都是经过了脱敏处理的,且所有文本数据都经过清洗,以自然句为单位分句,每一行为一个自然句,之后为其每一个字和标点符号映射一个唯一的索引,即每一个字和标点符号都由一个独立的整数来表示。便于处理,用下划线连接。比如:“欢迎来到达观数据。”被转化为形如“1_2_3_4_5_6_7_8_9”的字符串。训练集,预测集和大规模未标注语料均由同一份索引表生成训练集有17000条,在17000条数据上标注了3个字段,共有字段a 9281处,字段b 14704处,字段c 9097处。预测集有3000条。
数据格式
训练集每一行对应一条文本数据。每一个数字对应一个“字”或“标点符号”。字和字之间用‘_’连接,在对应字段后面标注/a、/b、/c,非字段文本标注/o。比如:“欢迎来到达观数据。”是形如“1_2_3_4_5_6_7_8_9”的字符串,如果“达观数据”是字段c,就会被标成“1_2_3_4/o 5_6_7_8/c 9/o”的形式。
正式开始吧!
首先,不得不说官方提供的baseline,分数是出奇的高呀。代码可见云盘https://pan.baidu.com/s/1egGezPG48dzqfJjsxQXbVg 提取码:cy1q
其使用的是CRF++工具,简单粗暴有木有。