科技文献知识AI引擎

科技文献分类

科技文献分类是基于科技文献摘要内容，自动为每篇科技文献进行中图法分类。

科技文献分类AI引擎

在大规模语料的基础上，我们利用BERT fine-tuning方法构建科技文献分类模型。针对全领域的深层细粒度分类，我们提出层级分类模型，从而实现对两千多个类别的高效准确预测。我们根据模型预测得分，为每个样本最多推荐四个分类号，在单标签分类的基础上进一步体现了学科交叉特性。

当前，平台提供基于全学科领域的两层分类引擎，对外提供服务。

用于构建分类引擎的训练文献数量约180万篇，类别标签2105个，具体分布如下：

科技文献分类模型测评

项目组在科技文献分类模型的构建上进行深入研究，在医学领域112个三级类目上完成分类测评实验，对比分析了单层分类模型与两层分类模型的实验效果。

以下是项目组发表的有关科技文献分类研究的相关论文，供参考。

赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究[J].数据分析与知识发现.2020.09

科技文献分类