科技文献分类是基于科技文献摘要内容,自动为每篇科技文献进行中图法分类。
在大规模语料的基础上,我们利用BERT fine-tuning方法构建科技文献分类模型。针对全领域的深层细粒度分类,我们提出层级分类模型,从而实现对两千多个类别的高效准确预测。我们根据模型预测得分,为每个样本最多推荐四个分类号,在单标签分类的基础上进一步体现了学科交叉特性。
当前,平台提供基于全学科领域的两层分类引擎,对外提供服务。
用于构建分类引擎的训练文献数量约180万篇,类别标签2105个,具体分布如下:
| 标签数量 | 训练集文献数量 | |
| R 医学 | 482 | 448,534 | 
| S 农学 | 276 | 176,659 | 
| TP 计算机、自动化 | 40 | 181,974 | 
| O 数理化科学 | 108 | 109,920 | 
| P 天文、地球科学 | 147 | 104,002 | 
| Q 生物科学 | 116 | 67,109 | 
| U 交通运输 | 79 | 41,632 | 
| V 航空航天 | 49 | 27,652 | 
| X 环境科学、安全科学 | 78 | 90,621 | 
| TM 电工技术 | 69 | 59,720 | 
| TQ 化学工业 | 88 | 57,747 | 
| TN 无线电电子学、电信技术 | 101 | 78,253 | 
| TB 一般工业技术 | 28 | 32,017 | 
| TE 石油、天然气工业 | 42 | 32,241 | 
| TS 轻工业、手工业 | 47 | 48,523 | 
| TG 金属学与金属工艺 | 94 | 62,891 | 
| TU 建筑科学 | 95 | 61,865 | 
| TH 机械、仪表工业 | 46 | 32,970 | 
| TK 能源与动力工程 | 22 | 25,136 | 
| TV 水利工程 | 32 | 15,885 | 
| TD 矿业工程 | 21 | 10,956 | 
| TL 原子能工程 | 18 | 9,744 | 
| TF 冶金工业 | 12 | 8,257 | 
| TJ 武器工业 | 15 | 6,834 | 
| 合计 | 2,105 | 1,791,142 | 
项目组在科技文献分类模型的构建上进行深入研究,在医学领域112个三级类目上完成分类测评实验,对比分析了单层分类模型与两层分类模型的实验效果。
| 评估指标 | 单层分类模型 | 两层分类模型 | 
|---|---|---|
| Precision | 0.7826 | 0.8051 | 
| Recall | 0.7819 | 0.7578 | 
| F1 | 0.7184 | 0.7623 | 
以下是项目组发表的有关科技文献分类研究的相关论文,供参考。
赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究[J].数据分析与知识发现.2020.09