中文科技文献关键词识别旨在为中文科技论文摘要自动推荐若干个与文章主旨相关的关键词
我们将词典特征融合到预训练语言模型BERT当中并对BERT进行微调,同时充分利用大规模训练数据的优势构建适用于全部学科领域的中文科技文献关键词识别AI引擎。训练数据涵盖来自各个领域的110万篇中文科技论文摘要数据,包含不重复的关键词105万个。 另外,我们使用TFIDF算法作为BERT模型抽取结果的补充,以更好地捕获文本中出现的高频词。
当前,平台提供基于全学科领域的中文科技论文关键词识别引擎,对外提供服务。
根据中图分类法,训练集中各个类别的学科分布情况如下所示:
训练集文献数量 | |
R 医药、卫生 | 354,641 |
T 工业技术 | 342,906 |
S 农业科学 | 123,017 |
O 数理科学和化学 | 67,308 |
Q 生物科学 | 48,554 |
P 天文学、地球科学 | 47,481 |
X 环境科学、安全科学 | 47,150 |
F 经济 | 23,074 |
U 交通运输 | 13,877 |
V 航空、航天 | 12,663 |
G 文化、科学、教育、体育 | 6,453 |
N 自然科学总论 | 3,218 |
B 哲学、宗教 | 2,949 | C 社会科学总论 | 2,526 |
K 历史、地理 | 1,622 |
E 军事 | 848 |
D 政治、法律 | 810 |
J 艺术 | 602 |
H 语言、文字 | 221 |
Z 综合性图书 | 44 |
I 文学 | 15 |
A 马克思主义、列宁主义、毛泽东思想、邓小平理论 | 7 |
合计 | 1,099,986 |
为了选择合适的用于中文科技文献关键词抽取算法,我们选定医学领域进行实验,深入研究了基于预训练语言模型的关键词识别模型,对相关模型完成对比测评,以下是详细对比结果。
# | 模型名称 | 模型介绍 | F1 |
---|---|---|---|
1 | BERT_SoftMax | 将从中文科技文献中抽取关键词定义为一个序列标注任务,每个词根都被标注为BIO形式,在预训练语言模型BERT之上添加一个SoftMax分类层,并对BERT进行微调。 | 59.89 |
2 | BERT_POS_SoftMax | 在BERT_SoftMax的基础之上,使用Hanlp进行词性标注,并将词性特征融合到BERT模型当中进行训练。 | 60.54 |
3 | BERT_Lexicon_SoftMax | 在BERT_SoftMax的基础之上,我们构建了医学领域词典,并将词典特征融合到BERT模型中进行训练。 | 64.09 |
4 | BERT_CRF | 在BERT之上使用CRF捕获标签之间的序列特征,为学习合理的transition矩阵,我们使用分层学习率,对BERT模型的参数的训练使用学习率1e-5,对CRF层的参数的训练使用学习率0.01。 | 61.88 |
5 | BERT_Span | 将关键词抽取定义为Span Prediction问题。训练两个二分类器,判断每个词根是不是开始位置和结束位置,进而预测关键短语的开始位置和结束位置。 | 61.31 |
以下是项目组发表的有关中文科技文献关键词识别研究的相关论文,供参考。
1. Liangping Ding, Zhixiong Zhang, Huan Liu,Jie Li,Gaihong Yu. Automatic Keyphrase Extraction from Scientific Chinese Medical Abstracts Based on Character-Level Sequence Labeling[C]. 2020 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2020.08