中国科学院文献情报中心科技文献语义挖掘研究组, 成立于2017年。先后承接了中国科学院文献情报能力建设专项《基于科技文献知识的人工智能(AI)引擎建设》、国家科技图书文献中心(NSTL)《下一代开放知识服务平台总体设计及关键技术研发专项--基于深度学习的科技论文语步标注技术工具研发》、中国科学院文献情报中心《科技文献丰富语义检索应用示范》、国家社科基金重大项目《大数据驱动的科技文献语义评价体系研究》(21&ZD329)、国家重点研发计划项目《科技文献内容深度挖掘及智能分析关键技术和软件》(2022YFF0711900)等多项深度学习相关项目。 科技文献资源中蕴含着丰富的知识内容,如定义、概念,研究背景、研究问题、研究基础、研究思路、论文中应用到的理论工具和方法、论文所进行的科学试验、得到的实验结果、形成的研究结论等。对科技文献中的知识进行揭示是数字图书馆研究和建设人员的一项重要任务。
科技文献摘要语步识别:自动识别摘要文本中表达目的、方法、结果、结论等语义类型的句子,理清知识脉络。
科技文献分类:自动为科技文献进行中图法分类,了解研究领域和学科交叉情况。
关键词识别:自动识别摘要文本的关键词,概括文献核心内容,理解研究主旨。
命名实体识别:自动识别科技文献中的通用及特定领域实体,细颗粒度展示隐含知识单元。
概念定义句识别:自动识别科技文献中表达概念定义的句子,了解核心概念。
文本标题生成:自动生成科技文本的标题,概括内容主旨,快速理解重点。
审稿人推荐:自动推荐与科技文献相关的论文稿人,加快投稿进程。
投稿期刊推荐:自动推荐与论文相关的投稿期刊,精准定位学术产出。
研究问题句识别:自动识别科技文献中表达研究问题的句子,了解主要问题。
引用句识别:自动识别科技文献中引用句并判断其引用情感和引用意图,辅助科技论文评价。
深度聚类:自动聚类科技文献,生成类簇标签,快速掌握主要内容。
结构化自动综述:自动综合科技文献,快速以结构化的形式自动梳理文献集的研究脉络。
2020年12月4日: 科技文献知识AI引擎发布。
2022年8月28日: 课题组参加“2022年中国情报学年会&情报学与情报工作发展论坛暨第十二届全国情报学博士生学术论坛”并荣获多项奖项。包括:
博士毕业生刘欢的学位论文《嵌入外部知识的科技论文摘要预训练语言模型构建方法研究》荣获“2022年全国情报学优秀博士学位论文奖”,导师张智雄获得优秀指导教师奖。
博士生李婕等《增加类簇级对比的SCCL文本深度聚类方法研究》论文获得情报学年会优秀论文奖;
博士生李雪思等《科技文献研究问题句识别方法研究》论文获得情报学博士生论坛二等奖;
博士生王宇飞等《中文科技论文标题自动生成系统的设计与实现》论文获得情报学博士生论坛三等奖。
2023年12月19日: 课题组成员邵田博士后入选2023年度国家资助博士后研究人员计划C档。
张智雄
深度学习技术方法、语义标注、
信息抽取、网络科技信息监测、
预印本学术交流。
中国科学院文献情报中心副主任,研究馆员(二级),博士,博士生导师。"中科院特聘硏究员计划”入选者,“中国科学院朱李月华优秀教师奖”获得者。中国科学技术情报学会知识组织专业委员会副主任,中国图书馆学会数字图书馆研究与建设专业委员副主任,《Data Intelligence》(DI)期刊共同主编、《数据分析与知识发现》期刊副主编、《Journal of Data and Information Science》(JDIS)、《数字图书馆论坛》、《智库理论与实践》、《情报工程》期刊编委。出版专著一部,发表研究论文一百五十余篇,译著三部。主持和参加国家、省部级项目四十余项。主持和作为核心成员参的国家级重要课题有“科技文献内容深度挖掘及智能分析关键技术和软件”(国家重点研发计划项目,2022YFF0711900)、“大数据驱动的科技文献语义评价体系研究”(国家社科基金重大项目,21&ZD329)、“预印本学术交流的理论和实践研究”(国家社科基金项目,19BTQ006)、“基于语言网络的文本主题中心度计算方法研究”(国家自然科学基金,批准号为61075047)、“科技知识组织体系共享服务平台建设”(“十二五”国家科技支撑计划重点项目课题,编号:2011BAH10B03)、 “从数字信息资源中实现知识抽取的理论和方法研究”(国家社科基金,05BTQ006)、“数字资源长期保存技术的研究与实践”(国家社科基金,09FTQ005)项目、“基于海量信息分析的科技评价方法、技术研究与应用”(“十一五”国家科技支撑计划重点项目课题,2006BAH03B05)、“网络信息资源保存的理论与方法研究”(国家社科基金,06BTQ025)、“网络科技信息中爆发主题的监测与分析方法研究”(国家社科基金,09BTQ035)等。
于改红(博士毕业,中国科学院文献情报中心高级工程师)
研究型论文的功能性语篇元素自动标注,科技信息监测
张敏(博士毕业,中国科学院武汉文献情报中心高级工程师)
智能语义索引构建,主题标引,科技信息监测
刘熠(博士后出站,中国科学院文献情报中心创新研究员)
科技文献智能问答、自动综述、文本聚类
刘欢(博士毕业,入职美的集团任算法工程师岗位)
科技文献预训练语言模型、科技文献知识引擎构建
丁良萍(博士毕业,英国曼彻斯特大学博士后)
科技论文关键词抽取、命名实体识别
赵旸(博士毕业,入职中国科学院文献情报中心数据资源部)
自动分类、基金语步识别、客户端开发
李雪思(博士毕业,入职河南投资集团任智能化处理研究员岗位)
科技文献概念定义句识别、事件抽取
王猛(博士后)
科学问题价值抽取
邵田(博士后)
科技文献领域科学数据提取
李婕(博士后)
期刊审稿人推荐、科技文献语料构建、文本聚类
王宇飞(博士)
文本标签自动生成、关键词排序
张梦婷(博士)
科技文本标题生成、科研实体识别
林歆(博士)
科技文献引用句识别
黎洋(博士)
知识对象抽取
张广寅(博士)
科技文献多模态解析
王雅娇(博士)
聚类标签生成
1. Zhixiong Zhang, Huan Liu, Liangping Ding, Pengmin Wu, Gaihong Yu. Moves Recognition in Abstract of Research Paper Based on Deep Learning[C]. 2019 ACM/IEEE Joint Conference on Digital Libraries (JCDL). 2019.06
2. 丁良萍, 张智雄, 刘欢. 影响支持向量机模型语步自动识别效果的因素研究[J]. 数据分析与知识发现. 2019.12
3. Gaihong Yu, Zhixiong Zhang, Huan Liu, Liangping Ding. Masked Sentence Model based on BERT for Move Recognition in Medical Scientific Abstracts[J]. Jornal of Data and Information Science (JDIS). 2019.12
4. 马娜, 张智雄, 于改红. 科技论文引用对象研究综述[J]. 图书情报工作. 2019.12
5. 张智雄, 刘欢, 丁良萍, 吴朋民, 于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究[J]. 数据分析与知识发现. 2020.01
6. Liangping Ding, Zhixiong Zhang, Huan Liu, Jie Li, Gaihong Yu. Automatic Keyphrase Extraction from Scientific Chinese Medical Abstracts Based on Character-Level Sequence Labeling[C]. 2020 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2020.08
7. 赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究[J]. 数据分析与知识发现. 2020.09
8. 张智雄, 刘欢, 于改红. 构建基于科技文献知识的人工智能引擎[J]. 农业图书情报学报. 2021.01
9. 刘欢, 张智雄, 王宇飞. BERT模型的主要优化改进方法研究综述[J]. 数据分析与知识发现. 2021.01
10. 张敏, 丁良萍, 刘欢. 面向科技文献的多维语义索引构建思路及实现[J]. 情报理论与实践. 2021.4
11. Liangping Ding, Zhixiong Zhang, Huan Liu, Yang Zhao. Design and Implementation of Keyphrase Extraction Engine for Chinese Scientific Literature[C]. 2021 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2021.09
12. Liangping Ding, Zhixiong Zhang, Yang Zhao. Bert-Based Chinese Medical Keyphrase Extraction Model Enhanced with External Features[C]. The 23rd International Conference on Asia-Pacific Digital Libraries. 2021.09
13. 丁良萍, 张智雄, 刘欢. 利用本体范畴体系实现物理学文献中的领域命名实体识别[C]. 2021中国情报学会年会&全国情报学博士生学术论坛(三等奖). 2021.09
14. 张敏, 刘欢, 丁良萍, 范青. 基于深度学习的网络科技信息情报价值计算方法研究[J]. 图书情报工作. 2021.10
15. 赵旸, 张智雄, 刘欢. 基于层次分类法的中文医学文献分类研究[J]. 图书馆学研究. 2021.11
16. 丁良萍, 张智雄, 张敏, 刘欢. 一个语义检索系统用户交互界面的设计与实现[C]. 2021全国图书馆学博士生论坛. 2021.11
17. 赵旸, 张智雄, 刘欢, 李婕. 基金项目摘要的语步识别系统设计与实现[J]. 情报理论与实践. 2022.04
18. 李雪思, 张智雄, 刘欢. 基于BERT模型实现概念定义句自动识别[J]. 情报科学. 2022.05
19. 李雪思, 张智雄, 刘欢. 一种基于序列标注的概念短语抽取方法[J]. 图书情报工作. 2022.06
20. 张智雄, 赵旸, 刘欢. 构建面向实际应用的科技文献自动分类引擎[J]. 中国图书馆学报. 2022.06
21. Liangping Ding, Zhixiong Zhang, Huan Liu. A Bootstrapped Chinese Biomedical Named Entity Recognition Model Incorporating Lexicons[C]. 2022 EEKE Workshop of ACM/IEEE Joint Conference on Digital Libraries. 2022.09
22. 赵旸, 张智雄. 当前国际预印本平台主要创新功能研究[J]. 中国科技期刊研究. 2022.10
23. 李雪思, 张智雄. 预印本学术交流生态中的参与主体及作用[J]. 中国科技期刊研究. 2022.10
24. 王宇飞, 张智雄, 赵旸, 张梦婷, 李雪思. 中文科技论文标题自动生成系统的设计与实现[J]. 数据分析与知识发现. 2022.11
25. 赵旸, 张智雄, 李婕. 项目申请书摘要文本的语步识别语料构建[J]. 图书情报工作. 2022.11
26. 李婕, 张智雄. 考虑局部特征和全局几何结构的文本深度聚类方法研究[C]. 吉林大学第十五届博士生国际学术论坛(三等奖). 2022.11
27. Liangping Ding, Tianyuan Huang, Huan Liu, Yufei Wang, Zhixiong Zhang. Distantly Supervised Named Entity Recognition with Category-Oriented Confidence Calibration[C]. International Conference on Asian Digital Libraries. 2022.12
28. 钱力, 刘熠, 张智雄, 李雪思, 谢靖, 许钦亚, 黎洋, 管铮懿, 李西雨, 文森. ChatGPT的技术基础分析[J]. 数据分析与知识发现. 2023.03
29. 张智雄, 于改红, 刘熠, 林歆, 张梦婷, 钱力. ChatGPT对文献情报工作的影响[J]. 数据分析与知识发现. 2023.04
30. 李婕, 张智雄, 王宇飞. 增加类簇级对比的SCCL文本深度聚类方法研究[J]. 数据分析与知识发现. 2023.04
31. Jie Li, Gaihong Yu, Zhixiong Zhang. RCMR 280k: Refined Corpus for Move Recognition Based on PubMed Abstracts[J]. Data Intelligence. 2023.04
32. 刘熠, 张智雄, 王宇飞, 李雪思. 基于语步识别的科技文献结构化自动综合工具构建[J]. 数据分析与知识发现. 2023.05
33. Liangping Ding, Giovanni Colavizza, Zhixiong Zhang. Partial Annotation Learning for Biomedical Entity Recognition[C]. International Society for Scientometrics and Informatrics. 2023.05
34. 李雪思, 张智雄, 刘熠, 王宇飞. 科技文献研究问题句识别方法研究[J]. 图书情报工作. 2023.05
35. Xuesi Li, Liangping Ding, Zhixiong Zhang. Drug Target Extraction from Biomedical Articles Based on a Two-Stage Cascading Framework[C]. 2023 ACM/IEEE Joint Conference on Digital Libraries (JCDL). 2023.06
36. 张智雄. 人工智能发展需要关注“复利效应”[J]. 竞争情报. 2023.06
37. 张智雄, 张梦婷, 林歆, 赵昆华, 李苑. 开放科学环境下全球科技期刊的发展态势[J]. 中国科学院院刊. 2023.06
38. Yang Zhao, Zhixiong Zhang, Yufei Wang, Xin Lin. Identifying research contributions based on semantic analysis of citation sentences: A case study of the 2021 Physiology or Medicine Nobel Prize laureates[C]. International Society for Scientometrics and Informatrics (ISSI 2023). 2023.07
39. Yang Zhao, Xin Lin, Yufei Wang, Mengting Zhang, Zhixiong Zhang. RefSciRate: A Reference Rating Method for Single Scientific Papers[C]. International Society for Scientometrics and Informatrics (ISSI 2023). 2023.07
40. Yang Zhao, Zhixiong Zhang, Yue Xiao. Leveraging MRC Framework for Research Contribution Patterns Identification in Citation Sentences[C]. The 25th International Conference on Asia-Pacific Digital Libraries (ICADL 2023). 2023.11
41. 李雪思,张智雄,王宇飞,等.领域知识演化分析方法综述[J].数据分析与知识发现,2024,8(01):1-15.
42. 王宇飞,张智雄,李雪思,等.基于IAR的短语级聚类标签自动构建算法研究[J].数据分析与知识发现,2024,8(Z1):191-199.
43. 张智雄.在开放科学和AI时代塑造新型学术交流模式[J].中国科技期刊研究,2024,35(05):561-567.
44. 张智雄,王玉菊,赵旸.国际开放同行评审平台的发展趋势及其对中国的建议[J].农业图书情报学报,2024,36(05):14-22.DOI:10.13998/j.cnki.issn1002-1248.24-0499.
45. 张智雄,李婕,邵田.以预印本为中心的盖茨基金会2025 OA政策研究及启示[J].中国科技期刊研究,2024,35(09):1240-1245.
46. 曹晓丽,李涵昱,张智雄.科技文献挖掘分析与服务标准体系建设研究[J].中国科技期刊研究,2024,35(10):1374-1383.
47. Yang Zhao, Mengting Zhang, Xiaoli Chen, Liangping Ding, Zhixiong Zhang. Early identification of scientific breakthroughs based on outlier analysis of research entities[J]. Journal of Data and Information Science, 2024, 9(4): 90-109.
48. 张智雄. 切实发挥科技文献在AI4S 中的知识底座作用[J].农业图书情报学报,2023,35(10):4-32.DOI:10.13998/j.cnki.issn1002-1248.23-0850.
49. 张智雄. 在人工智能时代贡献文献情报领域的智慧和方案[J].农业图书情报学报,2023,35(01):4-28.DOI:10.13998/j.cnki.issn1002-1248.23-0118.
50. L. Ding, G. Colavizza and Z. Zhang. Partial Annotation Learning for Biomedical Entity Recognition[J] IEEE Journal of Biomedical and Health Informatics. PP[2024-11-28].DOI:10.1109/JBHI.2024.3466294.
51. 李婕,张智雄,王宇飞. 构建面向实际应用的科技文献深度聚类引擎[C].中国国防科学技术信息学会第十六届学术年会.2024.8.
52. Yang Li, Mengting Zhang, Zhixiong Zhang, Yajiao Wang. Decoding the Essence of Scientific Knowledge Entity Extraction: An Innovative MRC Framework with Semantic Contrastive Learning and Boundary Perception[C]. 2024 ACM/IEEE Joint Conference on Digital Libraries (JCDL).
53. Mengting Zhang, Yajiao Wang, Yufei Wang, Zhixiong Zhang. Sentiment-Enhanced Opinion Sentence Recognition Using AgriBERT-SentiDPCNN and Multi-Opinion Summarization via LLMs for Agricultural Scientific Literature[C]. 2025 the 10th International Conference on Big Data Analytics (ICBDA). 2025.03(已录用)
课题已获批发明专利6项。包括:
张智雄;张彧;刘熠.一种基于明确语义内容的匹配方法与装置[P].ZL 2023 1 1253096.8.2023-12-01
张彧;谢靖;钱力;张智雄;常志军;刘熠;徐浩亮;张茹敏;李东阳. 一种明确语义要素的科技文献检索方法与装置[P].ZL 2023 1 1253096.8.2023-09-27
张智雄;王猛;邵田;李涵昱;刘熠;张广寅. 一种科技文献研究问题句识别方法及系统[P].ZL 2024 1 0426751.3.2024-10-18
叶志飞;张智雄;李涵昱;王猛;刘熠. 一种支持文本语义查重查新的评估指标体系模型构建方法[P].ZL 2024 1 0446483.1.2024-09-06
王猛;张智雄;李涵昱;张广寅;刘熠;邵田. 一种自注意力机制嵌入增强方法[P].ZL 2024 1 0426778.2.2024-08-30
王猛;张智雄;于改红;刘熠;叶志飞;李涵昱. 一种文献查重的方法、装置、存储介质及电子设备[P].ZL 2023 1 1696616.2.2024-06-18
课题已申请相关软件著作权50项。包括:
科技文献知识人工智能引擎 V1.0
科技文献知识AI引擎客户端 V1.0
语步识别人工智能引擎系统 V1.0
中文科技文献关键词识别人工智能引擎 V1.0
科技文献自动分类引擎系统 V1.0
科技文献知识人工智能引擎 V2.0
科技文献自动分类引擎系统 V2.0
中文科技文献关键词识别人工智能引擎 V2.0
科技文献引用句识别系统 V1.0
基金项目摘要语步识别系统 V1.0
基于语步识别的研究问题短语抽取软件 V1.0
基于自步学习的科技文献智能聚类软件 V1.0
基于语步识别的结构化自动综述软件 V1.0
基于语步识别的研究方法短语抽取软件 V1.0
英文科技文献引文重要性识别工具 V1.0
中文科技新闻标题自动生成软件 V1.0
中文医学命名实体识别人工智能引擎系统 V1.0
英文物理学命名实体识别人工智能引擎系统 V1.0
中文科研实体识别人工智能引擎系统 V1.0
英文科研实体识别人工智能引擎系统 V1.0
英文科技文献关键词识别人工智能引擎系统 V1.0
中文科研实体识别关系识别人工智能引擎系统 V1.0
中文科技文献标题自动生成人工智能引擎系统 V1.0
英文短语类簇标签生成人工智能引擎系统 V1.0
科技文献研究问题句识别人工智能引擎系统 V1.0
科技文献研究问题短语抽取人工智能引擎系统 V1.0
中文科技文献投稿期刊推荐引擎系统 V1.0
中文科技文献审稿人推荐引擎系统 V1.0
科技文献概念定义句识别人工智能引擎系统 V1.0
科技文献概念定义短语抽取人工智能引擎系统 V1.0
科技文献中二维材料属性数据提取软件 V1.0
中文科技政策领域知识对象提取软件 V1.0
地质领域文本知识对象实体抽取系统V1.0
arXiv计算机领域论文挖掘分析系统 V1.0
科技文献参考文献重要性排序人工智能系统V1.0
科技文献研究局限性识别系统 V1.0
科技文献价值句识别系统 V1.0
科技文献未来研究方向句识别系统 V1.0
科技文献的深度聚类软件 V1.0
英文科技文献PDF全文多模态解析系统V1.0
中文科技文献PDF全文多模态解析系统V1.0
中文科研实体识别人工智能引擎系统 V2.0
英文科技文献科研实体识别系统 V2.0
科技文献研究问题句识别系统 V2.0
科学价值句识别系统 V2.0
科技文献研究局限性识别系统 V2.0
科技文献未来研究方向句识别系统 V2.0
语步识别人工智能引擎系统V2.0
智能交互的语义检索系统 V1.0
明确语义内容的智能推荐系统 V1.0