科技文献知识AI引擎

语步识别

语步识别是自动从科技文献摘要文本中识别出表达背景、目的、方法、结果、结论等语义类型的句子。

语步识别AI引擎

我们在大规模语料的基础上，引入最新的深度学习方法实现科技论文摘要语步的自动识别。以自然语言处理的最新研究进展BERT为基础模型，结合文本上下文特征提取，并尝试通过语料精炼等方式优化改进语步识别模型的效果，构建出能够自动识别常见语步类型的深度学习模型，并将语步识别模型应用于大规模的实际语义标注任务中。

当前，平台部署了以下用于实际应用的语步识别AI引擎，对外提供服务。

各引擎训练语料及模型详细情况如下：

名称	方法	语步类型	语料规模
英文语步识别	Refined Masked Sentence Model	Background, Objective, Methods, Results, Conclusions	对440万篇PubMed结构化摘要完成语料精炼工作，得到28万篇结构化摘要数据
中文语步识别	BERT fine-tuning	目的、方法、结果、结论	提取CSCD全领域中文结构化摘要数据80万篇
基金项目语步识别	BERT fine-tuning	背景及问题、目标及任务、方法内容、价值意义	人工筛选基金项目语步识别句子语料2万条

语步识别模型评测

项目组同时深入研究了基于深度学习的语步识别模型，对我们的模型完成对比测评，以下是详细对比结果。

#	模型名称	提出者	模型介绍	F1
1	BERT-Base Model	Google	将PubMed 20k语料处理为单独的句子形式，在BERT-Base模型上完成fine-tuning。	86.05
2	HSLN Model	MIT	基于双向RNN及CRF结构的一种层次化的顺序标签网络，利用周围句子中的上下文信息来帮助对当前句子进行分类。	92.6
3	Masked Sentence Model	Our`s	改造BERT模型输入层，以Mask句子的形式，将摘要中的句子处理为其本身和其上下文两种形式，融合content information和context information，同时学习内容特征与上下文特征。	91.15
4	Masked Labels Model	Our`s	以Masked Sentence Model识别结果为基础上，将得分较高的句子用其标签Mask，重新构造输入层，学习摘要中的标签序列特征。	91.29
5	Refinded Masked Sentence Model	Our`s	在Masked Sentence Model的基础上，重新构建了精炼的PubMed 20k语料，相比原有语料，效果有所提升。	93.21
6	中文语步识别	Our`s	将中文医学结构化摘要语料处理为单独的句子形式，在BERT-Base模型上完成fine-tuning。（在结构化中文医学测试集上效果较好。）	98.28

以下是项目组发表的有关语步识别研究的相关论文，供参考。

1. Zhang Zhixiong, Liu Huan, Ding Liangping. Moves Recognition in Abstract of Research Paper Based on Deep Learning[C]. 2019 ACM/IEEE Joint Conference on Digital Libraries. 2019.06

2. 丁良萍,张智雄,刘欢.影响支持向量机模型语步自动识别效果的因素研究[J].数据分析与知识发现.2019.12

3. Gaihong Yu, Zhixiong Zhang , Huan Liu , Liangping Ding. Masked Sentence Model based on BERT for Move Recognition in Medical Scientific Abstracts[J]. Jornal of Data and Infromation Science (JDIS). 2019.12

4. 张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现.2020.01

语步识别

语步识别AI引擎

英文摘要语步识别（点击进入在线演示页面）

中文摘要语步识别（点击进入在线演示页面）

基金项目语步识别（点击进入在线演示页面）

语步识别模型评测