语步识别是自动从科技文献摘要文本中识别出表达背景、目的、方法、结果、结论等语义类型的句子。
我们在大规模语料的基础上,引入最新的深度学习方法实现科技论文摘要语步的自动识别。以自然语言处理的最新研究进展BERT为基础模型,结合文本上下文特征提取,并尝试通过语料精炼等方式优化改进语步识别模型的效果,构建出能够自动识别常见语步类型的深度学习模型,并将语步识别模型应用于大规模的实际语义标注任务中。
当前,平台部署了以下用于实际应用的语步识别AI引擎,对外提供服务。
各引擎训练语料及模型详细情况如下:
名称 | 方法 | 语步类型 | 语料规模 |
---|---|---|---|
英文语步识别 | Refined Masked Sentence Model | Background, Objective, Methods, Results, Conclusions | 对440万篇PubMed结构化摘要完成语料精炼工作,得到28万篇结构化摘要数据 |
中文语步识别 | BERT fine-tuning | 目的、方法、结果、结论 | 提取CSCD全领域中文结构化摘要数据80万篇 |
基金项目语步识别 | BERT fine-tuning | 背景及问题、目标及任务、方法内容、价值意义 | 人工筛选基金项目语步识别句子语料2万条 |
项目组同时深入研究了基于深度学习的语步识别模型,对我们的模型完成对比测评,以下是详细对比结果。
# | 模型名称 | 提出者 | 模型介绍 | F1 |
---|---|---|---|---|
1 | BERT-Base Model | 将PubMed 20k语料处理为单独的句子形式,在BERT-Base模型上完成fine-tuning。 | 86.05 | |
2 | HSLN Model | MIT | 基于双向RNN及CRF结构的一种层次化的顺序标签网络,利用周围句子中的上下文信息来帮助对当前句子进行分类。 | 92.6 |
3 | Masked Sentence Model | Our`s | 改造BERT模型输入层,以Mask句子的形式,将摘要中的句子处理为其本身和其上下文两种形式,融合content information和context information,同时学习内容特征与上下文特征。 | 91.15 |
4 | Masked Labels Model | Our`s | 以Masked Sentence Model识别结果为基础上,将得分较高的句子用其标签Mask,重新构造输入层,学习摘要中的标签序列特征。 | 91.29 |
5 | Refinded Masked Sentence Model | Our`s | 在Masked Sentence Model的基础上,重新构建了精炼的PubMed 20k语料,相比原有语料,效果有所提升。 | 93.21 |
6 | 中文语步识别 | Our`s | 将中文医学结构化摘要语料处理为单独的句子形式,在BERT-Base模型上完成fine-tuning。(在结构化中文医学测试集上效果较好。) | 98.28 |
以下是项目组发表的有关语步识别研究的相关论文,供参考。
1. Zhang Zhixiong, Liu Huan, Ding Liangping. Moves Recognition in Abstract of Research Paper Based on Deep Learning[C]. 2019 ACM/IEEE Joint Conference on Digital Libraries. 2019.06
2. 丁良萍,张智雄,刘欢.影响支持向量机模型语步自动识别效果的因素研究[J].数据分析与知识发现.2019.12
3. Gaihong Yu, Zhixiong Zhang , Huan Liu , Liangping Ding. Masked Sentence Model based on BERT for Move Recognition in Medical Scientific Abstracts[J]. Jornal of Data and Infromation Science (JDIS). 2019.12
4. 张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现.2020.01