科技文献分类


科技文献分类是基于科技文献摘要内容,自动为每篇科技文献进行中图法分类。

科技文献分类AI引擎

在大规模语料的基础上,我们利用BERT fine-tuning方法构建科技文献分类模型。针对全领域的深层细粒度分类,我们提出层级分类模型,从而实现对两千多个类别的高效准确预测。我们根据模型预测得分,为每个样本最多推荐四个分类号,在单标签分类的基础上进一步体现了学科交叉特性。

当前,平台提供基于全学科领域的两层分类引擎,对外提供服务。

用于构建分类引擎的训练文献数量约180万篇,类别标签2105个,具体分布如下:

标签数量训练集文献数量
R 医学482448,534
S 农学276176,659
TP 计算机、自动化40181,974
O 数理化科学108109,920
P 天文、地球科学147104,002
Q 生物科学11667,109
U 交通运输7941,632
V 航空航天4927,652
X 环境科学、安全科学7890,621
TM 电工技术6959,720
TQ 化学工业8857,747
TN 无线电电子学、电信技术10178,253
TB 一般工业技术2832,017
TE 石油、天然气工业4232,241
TS 轻工业、手工业4748,523
TG 金属学与金属工艺9462,891
TU 建筑科学9561,865
TH 机械、仪表工业4632,970
TK 能源与动力工程2225,136
TV 水利工程3215,885
TD 矿业工程2110,956
TL 原子能工程189,744
TF 冶金工业128,257
TJ 武器工业156,834
合计2,1051,791,142

科技文献分类模型测评

项目组在科技文献分类模型的构建上进行深入研究,在医学领域112个三级类目上完成分类测评实验,对比分析了单层分类模型与两层分类模型的实验效果。

评估指标 单层分类模型 两层分类模型
Precision 0.7826 0.8051
Recall 0.7819 0.7578
F1 0.7184 0.7623

以下是项目组发表的有关科技文献分类研究的相关论文,供参考。

赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究[J].数据分析与知识发现.2020.09