语步识别


语步识别是自动从科技文献摘要文本中识别出表达背景、目的、方法、结果、结论等语义类型的句子。

语步识别AI引擎

我们在大规模语料的基础上,引入最新的深度学习方法实现科技论文摘要语步的自动识别。以自然语言处理的最新研究进展BERT为基础模型,结合文本上下文特征提取,并尝试通过语料精炼等方式优化改进语步识别模型的效果,构建出能够自动识别常见语步类型的深度学习模型,并将语步识别模型应用于大规模的实际语义标注任务中。

当前,平台部署了以下用于实际应用的语步识别AI引擎,对外提供服务。

各引擎训练语料及模型详细情况如下:

名称 方法 语步类型 语料规模
英文语步识别 Refined Masked Sentence Model Background, Objective, Methods, Results, Conclusions 对440万篇PubMed结构化摘要完成语料精炼工作,得到28万篇结构化摘要数据
中文语步识别 BERT fine-tuning 目的、方法、结果、结论 提取CSCD全领域中文结构化摘要数据80万篇
基金项目语步识别 BERT fine-tuning 背景及问题、目标及任务、方法内容、价值意义 人工筛选基金项目语步识别句子语料2万条

语步识别模型评测

项目组同时深入研究了基于深度学习的语步识别模型,对我们的模型完成对比测评,以下是详细对比结果。

# 模型名称 提出者 模型介绍 F1
1 BERT-Base Model Google 将PubMed 20k语料处理为单独的句子形式,在BERT-Base模型上完成fine-tuning。 86.05
2 HSLN Model MIT 基于双向RNN及CRF结构的一种层次化的顺序标签网络,利用周围句子中的上下文信息来帮助对当前句子进行分类。 92.6
3 Masked Sentence Model Our`s 改造BERT模型输入层,以Mask句子的形式,将摘要中的句子处理为其本身和其上下文两种形式,融合content information和context information,同时学习内容特征与上下文特征。 91.15
4 Masked Labels Model Our`s 以Masked Sentence Model识别结果为基础上,将得分较高的句子用其标签Mask,重新构造输入层,学习摘要中的标签序列特征。 91.29
5 Refinded Masked Sentence Model Our`s 在Masked Sentence Model的基础上,重新构建了精炼的PubMed 20k语料,相比原有语料,效果有所提升。 93.21
6 中文语步识别 Our`s 将中文医学结构化摘要语料处理为单独的句子形式,在BERT-Base模型上完成fine-tuning。(在结构化中文医学测试集上效果较好。) 98.28

以下是项目组发表的有关语步识别研究的相关论文,供参考。

1. Zhang Zhixiong, Liu Huan, Ding Liangping. Moves Recognition in Abstract of Research Paper Based on Deep Learning[C]. 2019 ACM/IEEE Joint Conference on Digital Libraries. 2019.06

2. 丁良萍,张智雄,刘欢.影响支持向量机模型语步自动识别效果的因素研究[J].数据分析与知识发现.2019.12

3. Gaihong Yu, Zhixiong Zhang , Huan Liu , Liangping Ding. Masked Sentence Model based on BERT for Move Recognition in Medical Scientific Abstracts[J]. Jornal of Data and Infromation Science (JDIS). 2019.12

4. 张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现.2020.01