科技文献分类是基于科技文献摘要内容,自动为每篇科技文献进行中图法分类。
在大规模语料的基础上,我们利用BERT fine-tuning方法构建科技文献分类模型。针对全领域的深层细粒度分类,我们提出层级分类模型,从而实现对两千多个类别的高效准确预测。我们根据模型预测得分,为每个样本最多推荐四个分类号,在单标签分类的基础上进一步体现了学科交叉特性。
当前,平台提供基于全学科领域的两层分类引擎,对外提供服务。
用于构建分类引擎的训练文献数量约180万篇,类别标签2105个,具体分布如下:
标签数量 | 训练集文献数量 | |
R 医学 | 482 | 448,534 |
S 农学 | 276 | 176,659 |
TP 计算机、自动化 | 40 | 181,974 |
O 数理化科学 | 108 | 109,920 |
P 天文、地球科学 | 147 | 104,002 |
Q 生物科学 | 116 | 67,109 |
U 交通运输 | 79 | 41,632 |
V 航空航天 | 49 | 27,652 |
X 环境科学、安全科学 | 78 | 90,621 |
TM 电工技术 | 69 | 59,720 |
TQ 化学工业 | 88 | 57,747 |
TN 无线电电子学、电信技术 | 101 | 78,253 |
TB 一般工业技术 | 28 | 32,017 |
TE 石油、天然气工业 | 42 | 32,241 |
TS 轻工业、手工业 | 47 | 48,523 |
TG 金属学与金属工艺 | 94 | 62,891 |
TU 建筑科学 | 95 | 61,865 |
TH 机械、仪表工业 | 46 | 32,970 |
TK 能源与动力工程 | 22 | 25,136 |
TV 水利工程 | 32 | 15,885 |
TD 矿业工程 | 21 | 10,956 |
TL 原子能工程 | 18 | 9,744 |
TF 冶金工业 | 12 | 8,257 |
TJ 武器工业 | 15 | 6,834 |
合计 | 2,105 | 1,791,142 |
项目组在科技文献分类模型的构建上进行深入研究,在医学领域112个三级类目上完成分类测评实验,对比分析了单层分类模型与两层分类模型的实验效果。
评估指标 | 单层分类模型 | 两层分类模型 |
---|---|---|
Precision | 0.7826 | 0.8051 |
Recall | 0.7819 | 0.7578 |
F1 | 0.7184 | 0.7623 |
以下是项目组发表的有关科技文献分类研究的相关论文,供参考。
赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究[J].数据分析与知识发现.2020.09