命名实体识别旨在识别科技文献中出现的通用命名实体和科技实体
我们共构建了三个命名实体识别引擎,其中两个引擎面向通用领域,使用开源工具对中文和英文科技文献中出现的通用命名实体进行识别。另外一个引擎面向物理学领域,基于物理学领域本体ScienceWISE构建了两级命名实体识别模型,利用预训练语言模型BERT完成实体识别,旨在识别英文物理学领域科技文献中出现的科学实体及其领域范畴。共包含4个一级范畴及47个二级范畴。 其中一级范畴包括:
当前,平台提供以下三个命名实体识别引擎:
我们结合当前主流的中文实体识别相关工具,包括Stanza、Baidu LAC、Hanlp等,对几种工具的识别结果进行整合,以识别中文科技文献中的通用领域命名实体。
我们结合当前主流的英文实体识别相关工具,包括Stanza、spaCy、Dbpedia-Spotlight等,对几种工具的识别结果进行整合,以识别英文科技文献中的通用领域命名实体。
我们利用ScienceWise物理学领域本体范畴,构建了基于Arxiv物理学领域的实体实体语料,利用BERT模型微调以序列标注模式训练了实体识别自动标注模型,实现了对物理学领域实体的自动标注。对一级范畴和二级范畴模型识别F1值均达到90%以上。