中国科学院文献情报中心科技文献语义挖掘研究组, 成立于2017年。先后承接了中国科学院文献情报能力建设专项《基于科技文献知识的人工智能(AI)引擎建设》、国家科技图书文献中心(NSTL)《下一代开放知识服务平台总体设计及关键技术研发专项--基于深度学习的科技论文语步标注技术工具研发》、中国科学院文献情报中心《科技文献丰富语义检索应用示范》、国家社科基金重大项目《大数据驱动的科技文献语义评价体系研究》(21&ZD329)、国家重点研发计划项目《科技文献内容深度挖掘及智能分析关键技术和软件》(2022YFF0711900)等多项深度学习相关项目。 科技文献资源中蕴含着丰富的知识内容,如定义、概念,研究背景、研究问题、研究基础、研究思路、论文中应用到的理论工具和方法、论文所进行的科学试验、得到的实验结果、形成的研究结论等。对科技文献中的知识进行揭示是数字图书馆研究和建设人员的一项重要任务。
科技文献摘要语步识别:自动识别摘要文本中表达目的、方法、结果、结论等语义类型的句子,理清知识脉络。
科技文献分类:自动为科技文献进行中图法分类,了解研究领域和学科交叉情况。
关键词识别:自动识别摘要文本的关键词,概括文献核心内容,理解研究主旨。
命名实体识别:自动识别科技文献中的通用及特定领域实体,细颗粒度展示隐含知识单元。
概念定义句识别:自动识别科技文献中表达概念定义的句子,了解核心概念。
文本标题生成:自动生成科技文本的标题,概括内容主旨,快速理解重点。
审稿人推荐:自动推荐与科技文献相关的论文稿人,加快投稿进程。
投稿期刊推荐:自动推荐与论文相关的投稿期刊,精准定位学术产出。
研究问题句识别:自动识别科技文献中表达研究问题的句子,了解主要问题。
引用句识别:自动识别科技文献中引用句并判断其引用情感和引用意图,辅助科技论文评价。
深度聚类:自动聚类科技文献,生成类簇标签,快速掌握主要内容。
结构化自动综述:自动综合科技文献,快速以结构化的形式自动梳理文献集的研究脉络。
2020年12月4日: 科技文献知识AI引擎发布。
2022年8月28日: 课题组参加“2022年中国情报学年会&情报学与情报工作发展论坛暨第十二届全国情报学博士生学术论坛”并荣获多项奖项。包括:
博士毕业生刘欢的学位论文《嵌入外部知识的科技论文摘要预训练语言模型构建方法研究》荣获“2022年全国情报学优秀博士学位论文奖”,导师张智雄获得优秀指导教师奖。
博士生李婕等《增加类簇级对比的SCCL文本深度聚类方法研究》论文获得情报学年会优秀论文奖;
博士生李雪思等《科技文献研究问题句识别方法研究》论文获得情报学博士生论坛二等奖;
博士生王宇飞等《中文科技论文标题自动生成系统的设计与实现》论文获得情报学博士生论坛三等奖。
张智雄
深度学习技术方法、语义标注、
信息抽取、网络科技信息监测、
预印本学术交流。
中国科学院文献情报中心副主任,研究馆员(二级),博士,博士生导师。"中科院特聘硏究员计划”入选者,“中国科学院朱李月华优秀教师奖”获得者。中国科学技术情报学会知识组织专业委员会副主任,中国图书馆学会数字图书馆研究与建设专业委员副主任,《Data Intelligence》(DI)期刊共同主编、《数据分析与知识发现》期刊副主编、《Journal of Data and Information Science》(JDIS)、《数字图书馆论坛》、《智库理论与实践》、《情报工程》期刊编委。出版专著一部,发表研究论文一百五十余篇,译著三部。主持和参加国家、省部级项目四十余项。主持和作为核心成员参的国家级重要课题有“科技文献内容深度挖掘及智能分析关键技术和软件”(国家重点研发计划项目,2022YFF0711900)、“大数据驱动的科技文献语义评价体系研究”(国家社科基金重大项目,21&ZD329)、“预印本学术交流的理论和实践研究”(国家社科基金项目,19BTQ006)、“基于语言网络的文本主题中心度计算方法研究”(国家自然科学基金,批准号为61075047)、“科技知识组织体系共享服务平台建设”(“十二五”国家科技支撑计划重点项目课题,编号:2011BAH10B03)、 “从数字信息资源中实现知识抽取的理论和方法研究”(国家社科基金,05BTQ006)、“数字资源长期保存技术的研究与实践”(国家社科基金,09FTQ005)项目、“基于海量信息分析的科技评价方法、技术研究与应用”(“十一五”国家科技支撑计划重点项目课题,2006BAH03B05)、“网络信息资源保存的理论与方法研究”(国家社科基金,06BTQ025)、“网络科技信息中爆发主题的监测与分析方法研究”(国家社科基金,09BTQ035)等。
于改红(馆员)
研究型论文的功能性语篇元素自动标注,科技信息监测
张敏(馆员)
智能语义索引构建,主题标引,科技信息监测
刘熠(博士后)
科技文献智能问答、自动综述、文本聚类
王猛(博士后)
科学问题价值抽取
刘欢(已毕业)
科技文献预训练语言模型、科技文献知识引擎构建
丁良萍(博士)
科技论文关键词抽取、命名实体识别
李婕(博士)
期刊审稿人推荐、科技文献语料构建、文本聚类
赵旸(博士)
自动分类、基金语步识别、客户端开发
李雪思(博士)
科技文献概念定义句识别、事件抽取
王宇飞(博士)
文本标签自动生成、关键词排序
张梦婷(博士)
科技文本标题生成
林歆(博士)
科技文献引用句识别
黎洋(博士)
知识对象抽取
王雅娇
聚类标签生成
1. Zhixiong Zhang, Huan Liu, Liangping Ding, Pengmin Wu, Gaihong Yu. Moves Recognition in Abstract of Research Paper Based on Deep Learning[C]. 2019 ACM/IEEE Joint Conference on Digital Libraries. 2019.06
2. 丁良萍, 张智雄, 刘欢. 影响支持向量机模型语步自动识别效果的因素研究[J]. 数据分析与知识发现. 2019.12
3. Gaihong Yu, Zhixiong Zhang , Huan Liu , Liangping Ding. Masked Sentence Model based on BERT for Move Recognition in Medical Scientific Abstracts[J]. Jornal of Data and Information Science (JDIS). 2019.12
4. 马娜, 张智雄, 于改红. 科技论文引用对象研究综述[J]. 图书情报工作.2019.12
5. 张智雄, 刘欢, 丁良萍, 吴朋民, 于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究[J]. 数据分析与知识发现.2020.01
6. Liangping Ding, Zhixiong Zhang, Huan Liu, Jie Li, Gaihong Yu. Automatic Keyphrase Extraction from Scientific Chinese Medical Abstracts Based on Character-Level Sequence Labeling[C]. 2020 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2020.08
7. 赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究[J]. 数据分析与知识发现. 2020.09
8. 张智雄, 刘欢, 于改红. 构建基于科技文献知识的人工智能引擎[J]. 农业图书情报学报. 2021.01
9. 刘欢, 张智雄, 王宇飞. BERT模型的主要优化改进方法研究综述[J]. 数据分析与知识发现. 2021.01
10. 张敏, 丁良萍, 刘欢. 面向科技文献的多维语义索引构建思路及实现[J]. 情报理论与实践. 2021.4
11. Liangping Ding, Zhixiong Zhang, Huan Liu, Yang Zhao. Design and Implementation of Keyphrase Extraction Engine for Chinese Scientific Literature[C]. 2021 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2021.09
12. Liangping Ding, Zhixiong Zhang, Yang Zhao. Bert-Based Chinese Medical Keyphrase Extraction Model Enhanced with External Features[C]. The 23rd International Conference on Asia-Pacific Digital Libraries. 2021.09
13. 丁良萍, 张智雄, 刘欢. 利用本体范畴体系实现物理学文献中的领域命名实体识别[C]. 2021中国情报学会年会&全国情报学博士生学术论坛(三等奖). 2021.09
14. 张敏, 刘欢, 丁良萍, 范青. 基于深度学习的网络科技信息情报价值计算方法研究[J]. 图书情报工作. 2021.10
15. 赵旸, 张智雄, 刘欢. 基于层次分类法的中文医学文献分类研究[J]. 图书馆学研究. 2021.11
16. 丁良萍, 张智雄, 张敏, 刘欢. 一个语义检索系统用户交互界面的设计与实现[C]. 2021全国图书馆学博士生论坛. 2021.11
17. 赵旸, 张智雄, 刘欢, 李婕. 基金项目摘要的语步识别系统设计与实现[J]. 情报理论与实践. 2022.04
18. 李雪思, 张智雄, 刘欢. 基于BERT模型实现概念定义句自动识别[J]. 情报科学. 2022.05
19. 李雪思, 张智雄, 刘欢. 一种基于序列标注的概念短语抽取方法[J]. 图书情报工作. 2022.06
20. 张智雄, 赵旸, 刘欢. 构建面向实际应用的科技文献自动分类引擎[J]. 中国图书馆学报. 2022.06
21. Liangping Ding, Zhixiong Zhang, Huan Liu. A Bootstrapped Chinese Biomedical Named Entity Recognition Model Incorporating Lexicons[C]. 2022 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2022.09
22. 赵旸, 张智雄. 当前国际预印本平台主要创新功能研究[J]. 中国科技期刊研究. 2022.10
23. 李雪思, 张智雄. 预印本学术交流生态中的参与主体及作用[J]. 中国科技期刊研究. 2022.10
24. 王宇飞, 张智雄, 赵旸, 张梦婷, 李雪思. 中文科技论文标题自动生成系统的设计与实现[J]. 数据分析与知识发现. 2022.11
25. 赵旸, 张智雄, 李婕. 项目申请书摘要文本的语步识别语料构建[J]. 图书情报工作. 2022.11
26. 李婕, 张智雄. 考虑局部特征和全局几何结构的文本深度聚类方法研究[C]. 吉林大学第十五届博士生国际学术论坛(三等奖). 2022.11
27. Liangping Ding, Tianyuan Huang, Huan Liu, Yufei Wang, Zhixiong Zhang. Distantly Supervised Named Entity Recognition with Category-Oriented Confidence Calibration[C]. International Conference on Asian Digital Libraries. 2022.12
28. 钱力, 刘熠, 张智雄, 李雪思, 谢靖, 许钦亚, 黎洋, 管铮懿, 李西雨, 文森. ChatGPT的技术基础分析[J]. 数据分析与知识发现. 2023.03
29. 张智雄, 于改红, 刘熠, 林歆, 张梦婷, 钱力. ChatGPT对文献情报工作的影响[J]. 数据分析与知识发现. 2023.04
30. 李婕, 张智雄, 王宇飞. 增加类簇级对比的SCCL文本深度聚类方法研究[J]. 数据分析与知识发现. 2023.04
31. Jie Li, Gaihong Yu, Zhixiong Zhang. RCMR 280k: Refined Corpus for Move Recognition Based on PubMed Abstracts[J]. Data Intelligence. 2023.04
32. 刘熠, 张智雄, 王宇飞, 李雪思. 基于语步识别的科技文献结构化自动综合工具构建[J]. 数据分析与知识发现. 2023.05
33. Liangping Ding, Giovanni Colavizza, Zhixiong Zhang. An Assessment of Partial Annotation Learning for Biomedical Entity Recognition[C]. International Society for Scientometrics and Informatrics. 2023
34. Yang Zhao, Xin Lin, Yufei Wang, Mengting Zhang, Zhixiong Zhang. RefSciRate: A Reference Rating Method for Single Scientific Papers[C]. ISSI. 2023
35. Yang Zhao, Zhixiong Zhang, Yufei Wang, Xin Lin. Identifying research contributions based on semantic analysis of citation sentences: A case study of the 2021 Physiology or Medicine Nobel Prize laureates[C]. ISSI. 2023
36. Xuesi Li, Liangping Ding, Zhixiong Zhang. Drug Target Extraction from Biomedical Articles Based on a Two-Stage Cascading Framework[C]. Joint Conference on Digital Libraries. 2023
37. 李雪思, 张智雄, 刘熠, 王宇飞. 科技文献研究问题句识别方法研究[J]. 图书情报工作. 2023.05
38. 张智雄. 人工智能发展需要关注“复利效应”[J]. 竞争情报. 2023.06
39. 张智雄, 张梦婷, 林歆, 赵昆华, 李苑. 开放科学环境下全球科技期刊的发展态势[J]. 中国科学院院刊. 2023.06
课题已申请相关软件著作权30项。包括:
科技文献知识人工智能引擎 V1.0
科技文献知识AI引擎客户端 V1.0
语步识别人工智能引擎系统 V1.0
中文科技文献关键词识别人工智能引擎 V1.0
科技文献自动分类引擎系统 V1.0
科技文献知识人工智能引擎 V2.0
科技文献自动分类引擎系统 V2.0
中文科技文献关键词识别人工智能引擎 V2.0
科技文献引用句识别系统 V1.0
基金项目摘要语步识别系统 V1.0
基于语步识别的研究问题短语抽取软件 V1.0
基于自步学习的科技文献智能聚类软件 V1.0
基于语步识别的结构化自动综述软件 V1.0
基于语步识别的研究方法短语抽取软件 V1.0
英文科技文献引文重要性识别工具 V1.0
中文科技新闻标题自动生成软件 V1.0
中文医学命名实体识别人工智能引擎系统 V1.0
英文物理学命名实体识别人工智能引擎系统 V1.0
中文科研实体识别人工智能引擎系统 V1.0
英文科研实体识别人工智能引擎系统 V1.0
英文科技文献关键词识别人工智能引擎系统 V1.0
中文科研实体识别关系识别人工智能引擎系统 V1.0
中文科技文献标题自动生成人工智能引擎系统 V1.0
英文短语类簇标签生成人工智能引擎系统 V1.0
科技文献研究问题句识别人工智能引擎系统 V1.0
科技文献研究问题短语抽取人工智能引擎系统 V1.0
中文科技文献投稿期刊推荐引擎系统 V1.0
中文科技文献审稿人推荐引擎系统 V1.0
科技文献概念定义句识别人工智能引擎系统 V1.0
科技文献概念定义短语抽取人工智能引擎系统 V1.0